相关系数 Correlation Coefficient 的理解


相关系数 Correlation Coefficient


散点图的拟合图

这张图描绘的是电影的评分跟时间的关系,我们可以借助这样图通过三个步骤来解释相关系数。通过这三个步骤我们可以直观的判断相关系数的大小。
  • 对数据进行拟合

拟合后

所谓拟合,就是找一条能能最接近的去描述图中所有点,拟合好后就是图中绿色的线

  • 确定斜率的正负

拟合线有了以后,我们需要知道拟合线的斜率和相关系数的关系:
上图中,绿线的斜率是正的,相关系数就介于[0,1]之间。也就是说,随着时间的增长,电影的评分在升高,所以评分和时间是正相关的关系。

这里写图片描述

相反,如果拟合线的斜率是负数,则相关系数介于[-1,0]之间。就是说随着时间的增长,电影的评分会越来越低,就是评分和时间是负相关的关系。

这里写图片描述

这种情况下,随着时间的增加,电影的评分上下波动,但是总是在一个值附近波动,说明评分和时间没有关系。也就是相关性为0,这时候拟合线的斜率是0.

当然,这里只能说拟合的线的斜率为正,则正相关;斜率为负,则负相关;斜率为0,则不相关。相关系数的值介于[-1,-1]之间。但是并不是说斜率越大,相关性越大,具体怎么判断相关系数的大小要看下面。

  • 相关性大小的判断

这里写图片描述

首先,看散点在Y轴上的分布,如上图的黄色线所示,再看散点距离拟合线的情况,如上图绿色线所示。

相关系数=各点在Y轴分布/各点到拟合线的距离

这里写图片描述

分子越大,分母越小,则相关系数越大。上图中,各点到拟合线的距离差不多,但是左边的各点在Y轴分布较大,则左边的相关系数大于右边。

相关系数的正负大小是两个不同的、没有关系的概念。正负表示相关性是正相关还是负相关,和相关性的大小没关系。而大小则只负责表示相关性的大小,和正负无关。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值