皮尔森相关系数的python实现_深入理解皮尔逊相关系数&python代码

本文介绍了皮尔逊相关系数的常见误解,包括其为0并不代表无相关性,以及受异常点影响的不稳定性。文章强调了相关系数显著性的判断。此外,详细阐述了正确使用皮尔逊相关系数的步骤,并通过Python示例展示了如何在boston房价数据集上计算和分析相关性,包括散点图、相关系数矩阵和热力图的绘制,揭示了犯罪率与房价的负相关性。
摘要由CSDN通过智能技术生成

1.常见理解误区

(1)计算出变量A和变量B的皮尔逊相关系数为0,不代表A和B之间没有相关性,只能说明A和B之间不存在线性相关关系。

例:温度和冰淇淋销量之间的散点图像如下,可以发现大致成二次函数图像,随着温度升高,销量也会增加,达到峰值后,随着温度升高,销量反而下降。也就是说,销量和温度之间是有关系的。

不过,计算温度和销量之间的皮尔逊相关系数却为0。这只能说明温度和销量之间没有线性相关关系,而不能说二者不存在相关关系。图片来自于网络博客

(2)皮尔逊相关系数并不稳定,会受到异常点的影响。

例:如果不考虑最右侧的异常点,x和y之间的相关系数应该为0,即无论y取何值,x都为固定值8。但是,考虑了异常点后,x和y的相关系数变为0.816。

这也说明,在进行数据分析之前,需要对数据进行清洗,去掉异常点、噪声数据,使得分析结果更为可靠。

(3)皮尔逊相关系数绝对值越大,二者相关性越强?

答案是不一定。除了相关系数的大小,我们更要关心相关系数的显著性。

2.皮尔逊相关系数正确使用步骤

第一步:绘制散点图,是否存在异常点。如果有异常点,删除异常点。然后再看观察变量x和变量y之间的关系是否近似为一条直线,如果是,则计算皮尔逊相关系数。相关系数为(0,1]的正数,表明x和y之间呈线性正相关;相关系数为0,表明二者不存在线性相关

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值