5. 统计学基础2:协方差、相关系数、协方差矩阵

1. 协方差

标准差和方差一般是用来描述一维数据的,

具体介绍见:5. 统计学基础1:平均值…四分位数、方差、标准差(均方差)、标准误(标准误差、均方根误差)、 标准分

但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。
面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,
比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。
协方差就是这样用来度量两个随机变量关系的统计量
我们可以仿照方差的定义:

这里写图片描述

来度量各个维度偏离其均值的程度,协方差可以这样来定义:

clip_image002[8]

协方差的结果有什么意义呢?
如果X 变大时 Y 也变大,则协方差为正值,则说明两者是正相关,也就是说一个人越猥琐,越受女孩欢迎。
如果X 变大时 Y 变小,则协方差为负值,就说明两者是负相关,越猥琐,女孩子越讨厌。
如果为0或者接近0,则认为是没有线性关系的,就是统计上说的“相互独立”。

我们可以根据协方差的这种协同性来判断数据在不同“方向”上的离散程度。


从协方差的定义上,我们也可以看出一些显而易见的性质,如:

这里写图片描述


2. 相关系数【就是使 |协方差|<=1】

协方差的值的大小除了两种变量的相关性有关外,还与变量的量纲有关。
如果 X 是以10为量纲,而 Y 以10万为量纲,而 Z也是以10为量纲。
假设 X 与 Z 之间具有很强的相关性(比如 X i = Z i ),而 X、Y 之间不具有很强的相关性
应满足X与Z的相关系数 要大于 X与Y的相关系数
但是由于量纲的影响,实际上是小于

为了消除量纲的影响,引入了相关系数,可以使 |协方差| <=1

为了能够更好地衡量变量之间的相关程度,引入了相关系数 η

D(x)为x的方差,sqrt(D(x))为x的标准差
由不等式知:分母>=分子,故|η|<=1

因此, η 的取值范围为 [ − 1 , 1 ]
当 η 为正值时,X、Y 正相关,值越大正相关性越强;
当 η 为负值时,X 、Y负相关,值越小负相关性越强
当 η 趋于 0 时,基本不相关。当 η = 0 时, X、Y 不相关。

注 :此处所说的相关性都是线性相关性,有可能两者之间存在非线性的相关性


3. 协方差矩阵

前面提到的猥琐和受欢迎的问题是典型的二维问题,而协方差也只能处理二维问题,
那维数多了自然就需要计算多个协方差,于是就有了协方差矩阵

在这里插入图片描述

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

你说的白是什么白_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值