相关系数 学习笔记

目录

一.相关系数

二.皮尔逊(Pearson)相关系数

1.总体皮尔逊相关系数

2.样本皮尔逊相关系数

3.理解误区

4.显著性

(1)假设性检验

(2)假设性检验的前提

5.END

三.斯皮尔曼(spearman)相关系数

1.定义:

2.假设性检验

四.总结


一.相关系数

        相关系数用来衡量两个变量之间相关性的大小,相关系数有多种,要按照数据满足的条件选择适合的相关系数。

二.皮尔逊(Pearson)相关系数

1.总体皮尔逊相关系数

        两个变量对应的两组数据可以得到相应的协方差,协方差就反映出这两组数据之间变化的异同,如果两者同增或者同减协方差就会不断增大,而两者变化趋势相反,协方差就会有负值的加入而降低。但单纯的协方差存在量纲的影响,标准化后就是总体皮尔逊相关系数。

        总体皮尔逊相关系数是一个在【-1,1】之间波动变化的数值。绝对值接近1说明变量之间具有明显的线性关系,接近0则说明变量之间几乎不存在相关关系。

                                        \rho _{XY}=\frac{\sum_{i=1}^{n}\frac{(X_{i}-E(X))}{\sigma _{x}}\frac{(Y_{i}-E(Y))}{\sigma _{Y}}}{n}

       

2.样本皮尔逊相关系数

        在总体皮尔逊相关系数的基础上,样本方差分母调整成了n-1:

                                        \rho _{XY}=\frac{\sum_{i=1}^{n}\frac{(X_{i}-E(X))}{\sigma _{x}}\frac{(Y_{i}-E(Y))}{\sigma _{Y}}}{n-1}

        如果除以n,对样本方差的估计不是无偏估计,比总体方差要小,要想是无偏估计就要调小分母,所以除以n-1。

        无偏估计的概念,单独某次的数据均值并不准确,在不断重复试验的过程中,得到一个一个均值,无偏估计的意义是:在多次重复下,它们的平均数接近所估计的真实值。

        修正的过程得到样本方差与总体方差的关系:

                                E(s^{2})=\frac{n-1}{n}\sigma ^{2}

        藉此修正。

3.理解误区

        皮尔逊相关系数衡量的是两个变量之间线性相关程度的指标,如果不能保证线性的情况下皮尔逊相关系数是没有意义的。

        皮尔逊相关系数为0,只能保证两个变量之间几乎没有线性关系,但是可能存在其他更加复杂的关系。可以通过绘画散点图查看。

4.显著性

        比起相关系数的大小,往往更加关注的是显著性检验。

(1)假设性检验

        第一步:提出原假设检验H0与备择检验H1

                H0:r=0;H1:r≠0

        第二步:利用要检验的量构造出一个符合某一分布的统计量

                        (标准正态分布、t分布、卡方分布、F分布)

        第三步:将要检验的值代入统计量中,得到检验值

        第四步:根据统计量的分布情况,得到概率密度函数(pdf),画出接受域与拒绝域。

        第五步:检验值在接受域还是拒绝域?得出结论(包括置信区间与置信概率)。

        PLUS:p值判断法

                    根据检验值计算出对应的那个概率,依据的是cdf累积分布函数。

(2)假设性检验的前提

        前提:

                  1.实验数据通常假设是成对的来自于正态分布的总体。

                  2.实验数据之间的差距不能太大。

                  3.每组样本之间是独立抽样的。

        正态分布检验:

                雅克贝拉检验(JB检验)

                        构造JB统计量,进行假设性检验;针对的是样本量大于30的大样本数据。

                夏皮洛威尔克检验:

                        样本量3-50小样本数据量

                QQ图:        

                        要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点

                是否近似地在一条直线附近。(要求数据量非常大)。

5.END

        皮尔逊相关系数正态分布检验与假设性检验的要求有时候过于严格,引入其他类型的相关系数。

三.斯皮尔曼(spearman)相关系数

1.定义:

        X与Y之间建立等级相关系数,一个数的等级,即使将它所在一列数按照从大到小排序后,这个数所造的位置。

        另一种斯皮尔曼相关系数的定义,即斯皮尔曼相关系数就是等级上的皮尔逊相关系数。

2.假设性检验

        n≤30时,查临界值表即可。

        大样本,构造统计量r_{s}\sqrt{n-1}~N(0,1),计算检验值,求出相应的p值。

四.总结

        1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用
spearman相关系数也可以, 就是效率没有pearson相关系数高。
        2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
        3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。  

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值