标准差、方差、协方差、相关系数的设计思路

汇总统计——起源与设计

这篇文章主要是探讨标准差、方差、协方差、相关系数的设计思路。阅读这篇文章之前,你要先知道上述指标的计算公式,知道什么是随机变量。
如果你对于知道”是什么“感到不满足,而想知道”为什么“,是个喜欢”钻牛角尖“的人,那可以读一读这篇文章。

常见的统计指标

概率分布:直方图、概率表
位置度量:均值、中位数
散度度量:极差、方差
多元比较:相关系数、协方差矩阵
模型评估:准确率、召回率

通用的设计原则

用单个数或者数的小集合(较少的数据),反应更大的数据集的各种特征
效果:在数据处理过程中,肯定是会有部分损失,但少即是多,这样做可以使得某方面的信息更加突出,更能帮助理解数据的含义,而不是陷入海量数据中

标准差

目的

需要一个指标来衡量数据集合的发散性、散度,也就是数据波动幅度的大小。

思考过程

  • 每个样本的偏差累加就可以衡量
  • 偏差较大的值应具有更大的权重,期望方便计算
  • 集合中数字越多,方差越大,应该与集合大小无关
  • 量纲与原始数据不同,不方便比较
  • 最终结果,RMSE

设计过程

在这里插入图片描述
方式一:计算每个样本和均值的距离(差值)的大小(绝对值),然后都加起来。这样满足了“整体”和“幅度”。
∑ ∣ r e a l   n u m − m e a n ∣ \sum |real\, num - mean| realnummean
这样一来就能区别一些数据的散度,我们举一个例子来使用一下这个公式。
例:5次约会,每次迟到10分钟与5次准时,但一次迟到六十分钟。
x 1 = { 10 , 10 , 10 , 10 , 10 } x 2 = { 0 , 0 , 0 , 0 , 50 } x_1 = \{ 10,10,10,10,10\} \\x_2 = \{0,0,0,0,50\} x1={10,10,10,10,10}x2={0,0,0,0,50}

进一步的期望:此时我们希望加大不常出现的、波动幅度大的节点的重要性,减少常出现的、波动幅度小的节点的重要性。人们对经常发生的,但不是特别大的波动容忍度高,对不经常发生的、突然波动特别大的情况,容忍度低。我们希望能这个衡量散度的指标能给我们一个衡量数据能否接受的建议。增大数值可以倍乘也可以乘方,乘方的增大效果更强,并且偶次方可以保证数值恒为正数。不妨使用二次方(后文会提到乘几次方,为了保证量纲一致,还要开方,二次方开方还好算一点),于是提出方式二:将方式一的计算值平方。
∑ ( r e a l   n u m − m e a n ) 2 \sum (real\, num - mean)^2 (realnummean)2
但是在数据集规模不一样的时候,方式二所计算的波动性会和数据集的大小有关,这是不符合散度这个指标的设计初衷的。
在这里插入图片描述
为了消除数量对结果的影响,可以除去样本个数,于是有方式二—1:
M e a n ( ∑ ( r e a l   n u m − m e a n ) 2 ) Mean(\sum (real\, num - mean)^2) Mean((realnummean)2)
这样得到的结果在实际的应用场景中会产生一些不符合的情况,因为数据平方后量纲发生变化,不能和原始直接做比较,所以还要再开方来得到同样量纲的数字,于是有方式二—2:
( M e a n ( ∑ ( r e a l   n u m − m e a n ) 2 ) ) \sqrt{(Mean(\sum (real\, num - mean)^2))} (Mean((realnummean)2))
用方式二—2计算上述例子,得到结果:
s 1 = 0           s 2 = 20 s_1 = 0\,\,\,\,\,\,\,\,\,s_2 = 20 s1=0s2=20
同时考虑方式一,并且加上平均的操作,也能得到一个结果:
s 1 ′ = 0           s 2 ′ = 16 s_1^{'} = 0 \,\,\,\,\,\,\,\,\, s_2^{'} = 16 s1=0s2=16
可以看到对同样的数据,方式二—2将结果放大了。

协方差&相关系数(两个变量的相关性)

目的

相关性可以理解为,两个变量在变化过程中是同方向变化,还是反方向变化,还是都没有。
------------------------------变量分为连续型随机变量和离散型随机变量,这里只讨论两个连续型随机变量的相关性。

思考模式

带入到具体的场景中思考:

  1. 如果两个变量完全相关,数据应该是什么样
  2. 如果两个变量完全无关,数据应该是什么样
  3. 对于1和2,怎么表达这种相关与否的信息
    在这里插入图片描述
    通过观察发现
    在这里插入图片描述
    也就是得到一个 “ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + … … = “ 正 ” “正”+“正”+“正”+“正”+“正”+“正”+……=“正” ++++++=的效果。为了消除数据个数对结果的影响,接下来再除以数据个数
    上述是两个变量正相关的情况。负相关的时候,乘积是负值。
    在这里插入图片描述

相关系数是协方差的进一步表示

首先提出相关系数的意义:剔除了两个变量波动幅度的影响,将协方差标准化。

协方差存在的问题

在这里插入图片描述
上述两种情况X,Y都是同向变化,具有极高的相似度,不仅同时大于或小于各自的均值,变大变小的趋势也一样。但是如果分别计算协方差,得到:
第一种情况:
在这里插入图片描述
第二种情况:
在这里插入图片描述
协方差差距很大,但是这不能说明两种情况下,两个变量的相关性就差很多(事实上应该是一样的)。差别在于两种情况下,X的变化幅度不同。那么自然就需要消除变量变化幅度的影响。

改进

那变量的变化幅度是怎么参与计算的呢?
在协方差的计算公式中,我们用 “ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + … … = “ 正 ” “正”+“正”+“正”+“正”+“正”+“正”+……=“正” ++++++=来计算相关性,但回想在设计一个散度指标的时候, ( X − X − ) (X-X^{-}) (XX)表示变化幅度,如果使用一个 ( X − X − ) (X-X^{-}) (XX)来表示一个"正",那么会额外产生变量变化幅度的信息。
标准差描述了变量在整体变化过程中变量偏离均值的幅度。协方差除以标准差,也就会把协方差中变量变化幅度对协方差的影响剔除掉(这句话的逻辑目前不能像”累加之后,用平均来消除样本数量对结果的影响“那样理解),这样协方差就标准化了,它反映的就是两个变量每单位变化时的情况。
同时,可以从“性”上理解:如果X或Y的波动幅度变大,分子上的协方差会变大,但是分母上的标准差也会变大。于是相关系数只能在+1到-1之间变化(至于从”量“上的证明,目前还不能掌握,但是这种“消除影响用除”的思想是可以帮助理解公式的)

总结

对于两个变量X,Y
当他们的相关系数为1时,说明两个变量变化时的正向相速度最大,即,你变大一倍,我也变大一倍;你变小一倍,我也变小一倍。也即是完全正相关(线性关系)。

参考:
第三章 大数据分析之术 第四节
如何通俗易懂地解释「协方差」与「相关系数」的概念?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值