目录
一.相关系数
相关系数用来衡量两个变量之间相关性的大小,相关系数有多种,要按照数据满足的条件选择适合的相关系数。
二.皮尔逊(Pearson)相关系数
1.总体皮尔逊相关系数
两个变量对应的两组数据可以得到相应的协方差,协方差就反映出这两组数据之间变化的异同,如果两者同增或者同减协方差就会不断增大,而两者变化趋势相反,协方差就会有负值的加入而降低。但单纯的协方差存在量纲的影响,标准化后就是总体皮尔逊相关系数。
总体皮尔逊相关系数是一个在【-1,1】之间波动变化的数值。绝对值接近1说明变量之间具有明显的线性关系,接近0则说明变量之间几乎不存在相关关系。
2.样本皮尔逊相关系数
在总体皮尔逊相关系数的基础上,样本方差分母调整成了n-1:
如果除以n,对样本方差的估计不是无偏估计,比总体方差要小,要想是无偏估计就要调小分母,所以除以n-1。
无偏估计的概念,单独某次的数据均值并不准确,在不断重复试验的过程中,得到一个一个均值,无偏估计的意义是:在多次重复下,它们的平均数接近所估计的真实值。
修正的过程得到样本方差与总体方差的关系:
藉此修正。
3.理解误区
皮尔逊相关系数衡量的是两个变量之间线性相关程度的指标,如果不能保证线性的情况下皮尔逊相关系数是没有意义的。
皮尔逊相关系数为0,只能保证两个变量之间几乎没有线性关系,但是可能存在其他更加复杂的关系。可以通过绘画散点图查看。
4.显著性
比起相关系数的大小,往往更加关注的是显著性检验。
(1)假设性检验
第一步:提出原假设检验H0与备择检验H1
H0:r=0;H1:r≠0
第二步:利用要检验的量构造出一个符合某一分布的统计量
(标准正态分布、t分布、卡方分布、F分布)
第三步:将要检验的值代入统计量中,得到检验值
第四步:根据统计量的分布情况,得到概率密度函数(pdf),画出接受域与拒绝域。
第五步:检验值在接受域还是拒绝域?得出结论(包括置信区间与置信概率)。
PLUS:p值判断法
根据检验值计算出对应的那个概率,依据的是cdf累积分布函数。
(2)假设性检验的前提
前提:
1.实验数据通常假设是成对的来自于正态分布的总体。
2.实验数据之间的差距不能太大。
3.每组样本之间是独立抽样的。
正态分布检验:
雅克贝拉检验(JB检验)
构造JB统计量,进行假设性检验;针对的是样本量大于30的大样本数据。
夏皮洛威尔克检验:
样本量3-50小样本数据量
QQ图:
要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点
是否近似地在一条直线附近。(要求数据量非常大)。
5.END
皮尔逊相关系数正态分布检验与假设性检验的要求有时候过于严格,引入其他类型的相关系数。
三.斯皮尔曼(spearman)相关系数
1.定义:
X与Y之间建立等级相关系数,一个数的等级,即使将它所在一列数按照从大到小排序后,这个数所造的位置。
另一种斯皮尔曼相关系数的定义,即斯皮尔曼相关系数就是等级上的皮尔逊相关系数。
2.假设性检验
n≤30时,查临界值表即可。
大样本,构造统计量~N(0,1),计算检验值,求出相应的p值。
四.总结
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用
spearman相关系数也可以, 就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。