covariance 公式_协方差(covariance)与相关系数(1)|统计学专题

e9e487e49168865e586eae9e417ca177.png

1.三类关系趋势

如下,在测量5个肝细胞gene x 转录本表达情况的基础上,同时也测量这5个肝细胞gene y转录本表达量。对来自同一细胞(sample)的两个数据进行配对,利用其在X轴(green)和Y轴(red)上的数据在二维平面组成一个新的点(蓝色的点)并用直线对其进行拟合。

  • 1)如果斜率(slope)为正,gene x与gene y在细胞中表达成正相关。gene x表达水平随gene Y表达水平的增加而增加。利用拟合的直线,可以根据gene x的表达量预测gene y表达水平,也可以基于gene y的表达量预测gene x的表达水平。

    cf905ec818e46f7917da141bbdd8da43.png
  • 2)如果斜率为负,Gene x与gene y的表达呈现负相关趋势。较低的gene x表达水平对应较高的gene y表达水平,较高的gene x水平对应较低的gene y表达水平。d81762037f5bec7ee8c5a6a73361bc98.png

  • 3)如果斜率为0或者斜率不存在,gene x与gene y的表达水平之间无关联。表现为gene y/x的表达水平不随gene x/y的表达量变化而变化。e28bbbc56550b428e1f8cf0808a7073c.png

小结:covariance 的主要思想之一,其可以将数据分为三类关系:正向趋势的关系;负向趋势的关系;无任何趋势的关系。

2. 协方差描述三类关系趋势

「如何计算covariance:」

  • 协方差的计算公式:7eab34009ed2b142bc0033f7fbc82876.png

「当协方差为正时,gene x与gene y两变量间表现为正相关性。」 依次将数据代入公式,可以发现:两个黄色象限(一、三象限)的样本都对整体协方差做成正的贡献。协方差为116,它意味着gene x与gene y之间的拟合相关直线斜率是正值。因此,可以得出这样的结论:当协方差为正时,gene x与gene y之间呈正的变化趋势。4b480cb1ecc889c7291482aec6d1c9ad.png

「当协方差为负,gene x与gene y两变量间表现为负相关性。」 假设gene y的值与前不同,gene y的样本均值为20.2。Gene x的值保持不变,gene x的均值为17.6。我们使用协方差的计算公式计算gene x与gene y的协方差,在黄色象限的数据对整体协方差做出负的贡献,最后协方差等于-105.15。因此可以得出结论:当协方差为负时,gene x与gene y两变量间的相关性直线的斜率为负。

bade04630a1294ad3bb33463af235415.png

「将协方差为0时,gene x与gene y两变量间表现为无相关性。」 同样的计算方法,我们可以推算出,当gene x与gene y表达水平无关系时,协方差等于0。因此可以得出结论:当协方差为0时,gene x与gene y两变量间无相关关系。eda3a6423cae96293e93b5005a034a65.png

注意!!!协方差本身并不容易被阐释,它不能告诉我们相关性直线的斜率(陡峭或平坦),也不能告诉我们样本是否靠近相关性直线,它仅仅告诉我们两变量之间的相关性直线的斜率是正还是负。

3.协方差对数据的scale敏感

协方差本身的意义难以诠释,故我们不会以计算协方差为目标。但是计算协方差是其他计算的基础,例如相关系数(correlation)

「协方差对数据的scale敏感,使其不能揭示数据间的相关性程度。」

  • 例如,计算gene x与gene x的协方差,带入公式可得102;将gene x的表达水平扩大2倍后,求得gene x与其自身的协方差为408,是原来数据的4倍(如下)。故协方差对数据的scale非常敏感,此造成了协方差本身的难以阐释。231aba8b2ed8c319bbdcaf1c2d8d5403.png

  • 又例如:左边的数据较右边的数据更接近相关性直线,左边数据对应的协方差为102;右边数据对应的协方差为381,远大于左侧数据的协方差。将右侧数据同时缩小4倍后,数据距离相关性直线的距离未发生改变,但对应的协方差变为24,小于原来的协方差,也小于左侧数据的协方差。7f613d77124c4dcea06430f00d72b5bd.png

「协方差的替代指标:相关系数(Correlation)」 。计算协方差是计算correlation的第一步,描述两变量关系的相关系数(Correlation)对数据的scale不敏感。

除此之外,计算协方差是很多分析的基础。如PCA和其他一些有趣的分析。

4.小结

协方差是可以描述3类相关关系,包括正相关(协方差>0)、负相关(协方差<0)和无相关(协方差=0)。因为协方差对数据的scale异常敏感,故其本身的意义很难解读,但是它确实计算相关系数和其他指标的基础。在接下来的一小节,我们将继续学习利用协方差计算相关系数。

参考视频:

1. https://www.youtube.com/watch?v=qtaqvPAeEJY&list =PLblh5JK OoLUK0FLuzwntyYI10UQFUhsY9&index=15

2. https://www.youtube.com/watch?v=xZ_z8KWkhXE&list =PLblh5JK OoLUK0FLuzwntyYI10UQFUhsY9&index=16

efcbd3e097ae99bc98f4db239996e67f.png 719f9027f526d848c9fee52f4c24e2b4.png相关阅读

为什么除以n会低估总体方差?| 统计学专题

总体参数与样本估计总体参数]统计学专题

正态分布与中心极限定理|统计学专题

图说 | 通道门控机制

图说 | 癌代谢途径

bfcbd48c11d537e560d50790c42df377.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值