高尔顿被誉为现代回归的创始人,"回归效应"的发现源于高尔顿的豌豆遗传试验。在这个试验中,高尔顿发现,并非尺寸大的豌豆,其后代尺寸也大,尺寸小的豌豆,其后代尺寸也小。而是具有一种不同的趋势,即尺寸大的豌豆趋向于得到尺寸更小的子代,而尺寸小的豌豆趋向于得到尺寸更大的后代。高尔顿把这一现象称为"返祖",后来又称为"向平均值回归"。"回归效应"的应用非常广泛,生活中随处可见这样的例子。
1 变量之间的关系的度量
1.1变量间的关系
线性回归分析主要用于数值型数据之间的分析,因此要求所要分析的对象必须是数值型数据,即使不是数值型数据,也要想办法变成数值型数据,比如性别可以用0-1代替,成绩的优良中差可以用1-2-3-4表示等,当然这只是一种粗略的处理方法,当遇到分类型数据时,可以运用其他相应的方法处理,而不必非要使用线性回归。
变量之间往往具有两种关系,即确定的函数关系与不确定的相关关系。形如
,
则可以称为函数关系,这里y与x具有一一对应的关系,即x每取一个值,y有一个确定的值与之对应。而当x每取一个值时,y的值虽然不确定,但是总在一个确定的数的周围变动,则这种不确定的关系可以称之为相关关系。
1.2 相关分析
为了对变量之间的相关性进行描述与度量,提出了相关分析的概念。相关分析主要解决以下几个问题:
(1)变量之间是否存在关系?
(2)如果存在关系,是什么样的关系?
(3)关系强度如何?
(4)样本所表现的关系是否能够代表总体变量之间的关系?
在进行相关分析时,需要对总体做出如下两个假定:
(1)两个变量之间是线性关系
(2)两个变量都是随机变量
①利用散点图观察变量的关系
②相关系数的计算
按照上式计算出来的相关系数称为线性相关系数,也称为Pearson相关系数.
线性相关系数具有如下几个性质:
- r的取值范围在-1到1之间,且包含-1和1;
- r具有对称性,即;
- r的取值大小与原点和尺度无关;
- r仅仅是用来度量两个变量的线性关系强弱,不能用来度量非线性关系;
- 具有相关关系并不代表具有因果关系。
注:一般认为,因果关系是现象之间的引起与被引起的关系。引起一个现象的现象叫做原因,被一个现象引起的现象叫做结果。而同时变化并不意味着具有因果关系。比如,雷声和闪电往往同时出现,但是并不是雷声引起了闪电,也不是闪电引起了雷声,而是云层之间的摩擦发出的声音,并且形成了闪电。
一般来说,|r|>=0.8时,可视为高度相关;0.5<=|r|<0.8时,可视为中度相关;0.3<=|r|<0.5时,可视为低度相关;|r|<0.3时,认为不相关。
③相关关系的显著性检验
对相关系数进行显著性检验,往往假设r服从正态分布,因此,可以应用正态分布来检验。
第一步:提出假设。
第二步:计算检验统计量。
第三步:进行统计决策。
t的自由度为n-2,可查t分布表,如果|t|>|tα/2|,则可以拒绝原假设,认为两个变量之间存在显著地线性关系。
在R语言中,可以用cor.test()函数进行相关系数检验。
cor.test(x, y, alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"), exact = NULL, conf.level = 0.95, continuity = FALSE, ...) x,y:数值型向量或者数据框,x和y必须具有相同的长度 alternative:双边检验,左单侧检验还是右单侧检验 method:计算相关系数的方法 exact:逻辑值,是否计算精确的p值 conf.level:置信度或置信水平
有以下数据,展示的是某校研究生入学考试的初试分数、复试分数与总分,现在探究初试分数与复试分数的关系,看看