理解皮尔逊相关系数(Pearson Correlation Coefficient)

要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下:

cov(x,y)=ni=1(xixμ)(yiyμ)n1 c o v ( x , y ) = ∑ i = 1 n ( x i − x μ ) ( y i − y μ ) n − 1

Pearson相关系数公式如下:
px,y=cor(x,y)=cov(x,y)δxδy=E[(xxμ)(yyμ)]δxδy p x , y = c o r ( x , y ) = c o v ( x , y ) δ x δ y = E [ ( x − x μ ) ( y − y μ ) ] δ x δ y

由公式可知,Pearson相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,例如,现在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的。
为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准 δ2=ni=1(xixμ)n δ 2 = ∑ i = 1 n ( x i − x μ ) n ,容易得出,pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。《数据挖掘导论》给出了一个很好的图来说明:
这里写图片描述

### 改进皮尔逊相关系数分析的方法 #### 数据预处理的重要性 为了提高皮尔逊相关系数的有效性和准确性,在计算之前应仔细进行数据预处理。去除异常值可以显著改善结果的质量,因为极端数值可能会扭曲实际的相关关系[^1]。 #### 变量转换技术的应用 当两个变量之间的线性假设不成立时,可以通过应用变换来尝试使它们更接近于线性的关系。例如,对数转换或其他形式的幂次变化可以帮助揭示隐藏在线性模型背后的非线性模式。 #### 考虑其他统计度量作为补充工具 虽然皮尔逊相关系数是一个强大的指标,但在某些情况下可能不足以全面描述两组数据间的关系。Spearman等级相关系数和Kendall秩相关系数都是不错的选择,尤其是在面对有序分类数据或是存在大量离群点的数据集时[^2]。 ```python import numpy as np from scipy.stats import pearsonr, spearmanr # 假设我们有两个样本列表 x 和 y x = [1, 2, 3, 4, 5] y = [0.9, 2.2, 3.1, 4.8, 5] # 计算并打印不同类型的关联程度 print(f"Pearson Correlation Coefficient: {pearsonr(x, y)[0]}") print(f"Spearman Rank Correlation Coefficient: {spearmanr(x, y).correlation}") ``` #### 使用多元回归调整混杂因素的影响 如果怀疑有第三方变量影响了所研究的主要变量间的联系,则应该考虑采用多元回归方法来进行控制。这有助于分离出真正由目标自变量引起的因变量变动部分。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值