皮尔逊相关系数定义+特性+原理+公式+Python示例代码（带详细注释）

快乐的向某

已于 2024-06-13 22:20:57 修改

阅读量7k

点赞数 17

分类专栏：统计学学习文章标签： python 算法机器学习数据可视化数据分析数学建模

于 2024-05-19 18:40:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51929160/article/details/139045999

版权

文章目录

引言

皮尔逊相关系数是统计学中一种常用的衡量两个变量之间线性关系强度和方向的指标。它在数据分析、数据科学和机器学习等领域中具有广泛应用。理解和应用皮尔逊相关系数能够帮助研究者和分析师更好地揭示数据背后的关联和模式，从而做出更加准确和科学的决策。

定义

皮尔逊相关系数（Pearson Correlation Coefficient），通常用符号 $r$ 表示，定义为两个变量的协方差与它们标准差的乘积的比值。它的取值范围在-1到1之间，其中1表示完全正相关，-1表示完全负相关，0表示无线性相关关系。

特性

皮尔逊相关系数具有以下几个主要特性：

范围限定：皮尔逊相关系数的取值范围始终在-1和1之间。这意味着变量之间的关系可以是完全负相关、完全正相关或没有线性关系。
线性关系：皮尔逊相关系数仅衡量线性关系，不适用于非线性关系。如果两个变量存在非线性关系，皮尔逊相关系数可能会低估这种关系的强度。
无量纲性：皮尔逊相关系数是一个无量纲的指标，这意味着它不受变量的单位和量级的影响，可以用于不同单位的变量之间的比较。
对称性：皮尔逊相关系数是对称的，即 $r (X, Y) = r (Y, X)$ ，这意味着交换变量的顺序不会影响相关系数的值。

基本原理和公式推导

皮尔逊相关系数通过衡量两个变量的协方差与它们标准差的乘积的比值来表示它们之间的线性关系。其公式为：
$\frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}}$
其中：

$X_i$ 和 $Y_i$ ：变量 $X$ 和 $Y$ 的第 $i$ 个观测值。
$\bar{X}$ 和 $\bar{Y}$ ：变量 $X$ 和 $Y$ 的均值。
$\sum$ ：求和符号，表示对所有观测值求和。

公式推导

计算变量 $X$ 和 $Y$ 的均值：
$\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$
$\bar{Y} = \frac{1}{n} \sum_{i=1}^{n} Y_i$

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。