皮尔逊相关系数(Pearson Correlation Coefficient)

简介:皮尔逊相关系数,用来反映两个随机变量之间的线形相关程度。皮尔逊相关也称为积差相关(或矩阵相关)是一种计算直线相关的方法。

首先,先了解一下协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,协方差的公式如下:

假设有两个变量X,Y,那么两个变量间的皮尔逊相关系数可通过以下公式计算:

公式一:

其中,cov是协方差,是X的标准差,是Y的标准差。上述公式可以知道,皮尔逊相关系数是用协方差除以两个变量的标准差得到的。

公式二:

公式三:

公式四:

以上列出的四个公式等价,E是数学期望

由公式可知,皮尔逊系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,例如,现在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的。

为了更好的度量两个随机变量的相关程度,引入了皮尔逊相关系数,其在协方差的基础上除以了两个随机变量的标准,容易得出,pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1,当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却见效,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线形关系。

适用范围:

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

1)两个变量之间是线形相关,都是连续数据;

2)两个变量的总体是正态分布,或接近正态分布的单峰分布;

3)两个变量的观测值是成对的,每对观测值之间相互独立;

皮尔逊相关系数的优点包括: 1. 皮尔逊相关系数能够衡量两个变量之间的线性相关程度,可以帮助我们了解变量之间的关系和趋势。 2. 皮尔逊相关系数的取值范围在-1到1之间,可以直观地表示变量之间的相关性,当相关系数接近1时,表示两个变量呈正相关关系;当相关系数接近-1时,表示两个变量呈负相关关系;当相关系数接近0时,表示两个变量之间几乎没有线性关系。 3. 皮尔逊相关系数计算简单,公式容易理解和应用,可以方便地进行数据分析和比较。 皮尔逊相关系数的缺点包括: 1. 皮尔逊相关系数只能衡量线性相关关系,对于非线性关系的数据,可能无法准确反映变量之间的关系。 2. 皮尔逊相关系数对异常值比较敏感,异常值的存在可能会影响相关系数的计算结果,进而影响对变量之间关系的判断。 3. 皮尔逊相关系数只能反映变量之间的线性相关程度,不能说明因果关系,即不能确定变量之间的因果关系是单向的还是相互影响的。 4. 皮尔逊相关系数要求变量服从正态分布,并且要求变量之间的关系是线性关系,对于不满足这些假设的数据,相关系数的计算结果可能不准确。 因此,在使用皮尔逊相关系数时,需要考虑数据的性质和相关系数的局限性,结合其他统计方法和领域知识综合分析,以得出更准确和全面的结论。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值