R语言——一元线性回归

最新推荐文章于 2024-06-28 14:23:45 发布

Mr_Fengyy

最新推荐文章于 2024-06-28 14:23:45 发布

阅读量1.7w

点赞数 9

本文链接：https://blog.csdn.net/weixin_41030360/article/details/80891739

版权

本文详细介绍了R语言中一元线性回归的理论与实践，包括变量间的关系度量、相关分析、一元线性回归模型、参数估计、拟合优度、显著性检验以及预测和残差分析。通过实例展示了如何使用R进行相关系数检验和线性回归建模，以确定变量间的线性关系和预测能力。

摘要由CSDN通过智能技术生成

高尔顿被誉为现代回归的创始人，"回归效应"的发现源于高尔顿的豌豆遗传试验。在这个试验中，高尔顿发现，并非尺寸大的豌豆，其后代尺寸也大，尺寸小的豌豆，其后代尺寸也小。而是具有一种不同的趋势，即尺寸大的豌豆趋向于得到尺寸更小的子代，而尺寸小的豌豆趋向于得到尺寸更大的后代。高尔顿把这一现象称为"返祖"，后来又称为"向平均值回归"。"回归效应"的应用非常广泛，生活中随处可见这样的例子。

1 变量之间的关系的度量

1.1变量间的关系

线性回归分析主要用于数值型数据之间的分析，因此要求所要分析的对象必须是数值型数据，即使不是数值型数据，也要想办法变成数值型数据，比如性别可以用0-1代替，成绩的优良中差可以用1-2-3-4表示等，当然这只是一种粗略的处理方法，当遇到分类型数据时，可以运用其他相应的方法处理，而不必非要使用线性回归。

变量之间往往具有两种关系，即确定的函数关系与不确定的相关关系。形如

，

则可以称为函数关系，这里y与x具有一一对应的关系，即x每取一个值，y有一个确定的值与之对应。而当x每取一个值时，y的值虽然不确定，但是总在一个确定的数的周围变动，则这种不确定的关系可以称之为相关关系。

1.2 相关分析

为了对变量之间的相关性进行描述与度量，提出了相关分析的概念。相关分析主要解决以下几个问题：

（1）变量之间是否存在关系？

（2）如果存在关系，是什么样的关系？

（3）关系强度如何？

（4）样本所表现的关系是否能够代表总体变量之间的关系？

在进行相关分析时，需要对总体做出如下两个假定：

（1）两个变量之间是线性关系

（2）两个变量都是随机变量

①利用散点图观察变量的关系

②相关系数的计算

按照上式计算出来的相关系数称为线性相关系数,也称为Pearson相关系数.

线性相关系数具有如下几个性质:

r的取值范围在-1到1之间，且包含-1和1；
r具有对称性，即;
r的取值大小与原点和尺度无关；
r仅仅是用来度量两个变量的线性关系强弱，不能用来度量非线性关系；
具有相关关系并不代表具有因果关系。

注：一般认为，因果关系是现象之间的引起与被引起的关系。引起一个现象的现象叫做原因，被一个现象引起的现象叫做结果。而同时变化并不意味着具有因果关系。比如，雷声和闪电往往同时出现，但是并不是雷声引起了闪电，也不是闪电引起了雷声，而是云层之间的摩擦发出的声音，并且形成了闪电。

一般来说，|r|>=0.8时，可视为高度相关；0.5<=|r|<0.8时，可视为中度相关；0.3<=|r|<0.5时，可视为低度相关；|r|<0.3时，认为不相关。

③相关关系的显著性检验

对相关系数进行显著性检验，往往假设r服从正态分布，因此，可以应用正态分布来检验。

第一步：提出假设。

第二步：计算检验统计量。

第三步：进行统计决策。

t的自由度为n-2,可查t分布表，如果|t|>|t_α/2|，则可以拒绝原假设，认为两个变量之间存在显著地线性关系。

在R语言中，可以用cor.test()函数进行相关系数检验。

cor.test(x, y,

alternative = c("two.sided", "less", "greater"),

method = c("pearson", "kendall", "spearman"),

exact = NULL, conf.level = 0.95, continuity = FALSE, ...)

x,y:数值型向量或者数据框，x和y必须具有相同的长度

alternative:双边检验，左单侧检验还是右单侧检验

method:计算相关系数的方法

exact:逻辑值，是否计算精确的p值

conf.level:置信度或置信水平

有以下数据，展示的是某校研究生入学考试的初试分数、复试分数与总分，现在探究初试分数与复试分数的关系，看看