相关系数学习笔记

最新推荐文章于 2023-06-15 20:02:47 发布

笑小白

最新推荐文章于 2023-06-15 20:02:47 发布

阅读量1.7k

收藏 2

点赞数

分类专栏：数学建模文章标签：学习概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52139682/article/details/123019597

版权

数学建模专栏收录该内容

5 篇文章 0 订阅

订阅专栏

目录

一.相关系数

二.皮尔逊（Pearson）相关系数

1.总体皮尔逊相关系数

2.样本皮尔逊相关系数

3.理解误区

4.显著性

（1）假设性检验

（2）假设性检验的前提

5.END

三.斯皮尔曼（spearman）相关系数

1.定义：

2.假设性检验

四.总结

一.相关系数

相关系数用来衡量两个变量之间相关性的大小，相关系数有多种，要按照数据满足的条件选择适合的相关系数。

二.皮尔逊（Pearson）相关系数

1.总体皮尔逊相关系数

两个变量对应的两组数据可以得到相应的协方差，协方差就反映出这两组数据之间变化的异同，如果两者同增或者同减协方差就会不断增大，而两者变化趋势相反，协方差就会有负值的加入而降低。但单纯的协方差存在量纲的影响，标准化后就是总体皮尔逊相关系数。

总体皮尔逊相关系数是一个在【-1,1】之间波动变化的数值。绝对值接近1说明变量之间具有明显的线性关系，接近0则说明变量之间几乎不存在相关关系。

$\rho _{XY}=\frac{\sum_{i=1}^{n}\frac{(X_{i}-E(X))}{\sigma _{x}}\frac{(Y_{i}-E(Y))}{\sigma _{Y}}}{n}$

2.样本皮尔逊相关系数

在总体皮尔逊相关系数的基础上，样本方差分母调整成了n-1：

$\rho _{XY}=\frac{\sum_{i=1}^{n}\frac{(X_{i}-E(X))}{\sigma _{x}}\frac{(Y_{i}-E(Y))}{\sigma _{Y}}}{n-1}$

如果除以n，对样本方差的估计不是无偏估计，比总体方差要小，要想是无偏估计就要调小分母，所以除以n-1。

无偏估计的概念，单独某次的数据均值并不准确，在不断重复试验的过程中，得到一个一个均值，无偏估计的意义是：在多次重复下，它们的平均数接近所估计的真实值。

修正的过程得到样本方差与总体方差的关系：

$E(s^{2})=\frac{n-1}{n}\sigma ^{2}$

藉此修正。

3.理解误区

皮尔逊相关系数衡量的是两个变量之间线性相关程度的指标，如果不能保证线性的情况下皮尔逊相关系数是没有意义的。

皮尔逊相关系数为0，只能保证两个变量之间几乎没有线性关系，但是可能存在其他更加复杂的关系。可以通过绘画散点图查看。

4.显著性

比起相关系数的大小，往往更加关注的是显著性检验。

（1）假设性检验

第一步：提出原假设检验H0与备择检验H1

H0：r=0；H1：r≠0

第二步：利用要检验的量构造出一个符合某一分布的统计量

（标准正态分布、t分布、卡方分布、F分布）

第三步：将要检验的值代入统计量中，得到检验值

第四步：根据统计量的分布情况，得到概率密度函数（pdf），画出接受域与拒绝域。

第五步：检验值在接受域还是拒绝域？得出结论（包括置信区间与置信概率）。

PLUS：p值判断法

根据检验值计算出对应的那个概率，依据的是cdf累积分布函数。

（2）假设性检验的前提

前提：

1.实验数据通常假设是成对的来自于正态分布的总体。

2.实验数据之间的差距不能太大。

3.每组样本之间是独立抽样的。

正态分布检验：

雅克贝拉检验（JB检验）

构造JB统计量，进行假设性检验；针对的是样本量大于30的大样本数据。

夏皮洛威尔克检验：

样本量3-50小样本数据量

QQ图：

要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点

是否近似地在一条直线附近。（要求数据量非常大）。

5.END

皮尔逊相关系数正态分布检验与假设性检验的要求有时候过于严格，引入其他类型的相关系数。

三.斯皮尔曼（spearman）相关系数

1.定义：

X与Y之间建立等级相关系数，一个数的等级，即使将它所在一列数按照从大到小排序后，这个数所造的位置。

另一种斯皮尔曼相关系数的定义，即斯皮尔曼相关系数就是等级上的皮尔逊相关系数。

2.假设性检验

n≤30时，查临界值表即可。

大样本，构造统计量 $r_{s}\sqrt{n-1}$ ~N（0,1），计算检验值，求出相应的p值。

四.总结

        1.连续数据，正态分布，线性关系，用pearson相关系数是最恰当，当然用
spearman相关系数也可以，就是效率没有pearson相关系数高。
        2.上述任一条件不满足，就用spearman相关系数，不能用pearson相关系数。
        3.两个定序数据之间也用spearman相关系数，不能用pearson相关系数。

笑小白

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值