标准差、方差、协方差、相关系数的设计思路

最新推荐文章于 2021-11-11 00:10:47 发布

cn_L4EX

最新推荐文章于 2021-11-11 00:10:47 发布

阅读量1.2k

点赞数

分类专栏：数学思维

本文链接：https://blog.csdn.net/u013814701/article/details/102943014

版权

数学思维专栏收录该内容

2 篇文章 0 订阅

订阅专栏

汇总统计——起源与设计

这篇文章主要是探讨标准差、方差、协方差、相关系数的设计思路。阅读这篇文章之前，你要先知道上述指标的计算公式，知道什么是随机变量。
如果你对于知道”是什么“感到不满足，而想知道”为什么“，是个喜欢”钻牛角尖“的人，那可以读一读这篇文章。

常见的统计指标

概率分布：直方图、概率表
位置度量：均值、中位数
散度度量：极差、方差
多元比较：相关系数、协方差矩阵
模型评估：准确率、召回率

通用的设计原则

用单个数或者数的小集合（较少的数据），反应更大的数据集的各种特征
效果：在数据处理过程中，肯定是会有部分损失，但少即是多，这样做可以使得某方面的信息更加突出，更能帮助理解数据的含义，而不是陷入海量数据中

标准差

目的

需要一个指标来衡量数据集合的发散性、散度，也就是数据波动幅度的大小。

思考过程

每个样本的偏差累加就可以衡量
偏差较大的值应具有更大的权重，期望方便计算
集合中数字越多，方差越大，应该与集合大小无关
量纲与原始数据不同，不方便比较
最终结果，RMSE

设计过程

在这里插入图片描述
方式一：计算每个样本和均值的距离（差值）的大小（绝对值），然后都加起来。这样满足了“整体”和“幅度”。
$\sum |real\, num - mean|$
这样一来就能区别一些数据的散度，我们举一个例子来使用一下这个公式。
例：5次约会，每次迟到10分钟与5次准时，但一次迟到六十分钟。
$x_1 = \{ 10,10,10,10,10\} \\x_2 = \{0,0,0,0,50\}$

进一步的期望：此时我们希望加大不常出现的、波动幅度大的节点的重要性，减少常出现的、波动幅度小的节点的重要性。人们对经常发生的，但不是特别大的波动容忍度高，对不经常发生的、突然波动特别大的情况，容忍度低。我们希望能这个衡量散度的指标能给我们一个衡量数据能否接受的建议。增大数值可以倍乘也可以乘方，乘方的增大效果更强，并且偶次方可以保证数值恒为正数。不妨使用二次方（后文会提到乘几次方，为了保证量纲一致，还要开方，二次方开方还好算一点），于是提出方式二：将方式一的计算值平方。
$\sum (real\, num - mean)^2$
但是在数据集规模不一样的时候，方式二所计算的波动性会和数据集的大小有关，这是不符合散度这个指标的设计初衷的。
在这里插入图片描述
为了消除数量对结果的影响，可以除去样本个数，于是有方式二—1：
$Mean(\sum (real\, num - mean)^2)$
这样得到的结果在实际的应用场景中会产生一些不符合的情况，因为数据平方后量纲发生变化，不能和原始直接做比较，所以还要再开方来得到同样量纲的数字，于是有方式二—2：
$\sqrt{(Mean(\sum (real\, num - mean)^2))}$
用方式二—2计算上述例子，得到结果：
$s_1 = 0\,\,\,\,\,\,\,\,\,s_2 = 20$
同时考虑方式一，并且加上平均的操作，也能得到一个结果：
$s_1^{'} = 0 \,\,\,\,\,\,\,\,\, s_2^{'} = 16$
可以看到对同样的数据，方式二—2将结果放大了。

协方差&相关系数（两个变量的相关性）

目的

相关性可以理解为，两个变量在变化过程中是同方向变化，还是反方向变化，还是都没有。
------------------------------变量分为连续型随机变量和离散型随机变量，这里只讨论两个连续型随机变量的相关性。

思考模式

带入到具体的场景中思考：

如果两个变量完全相关，数据应该是什么样
如果两个变量完全无关，数据应该是什么样
对于1和2，怎么表达这种相关与否的信息

通过观察，发现

也就是得到一个 $“ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + “ 正 ” + \dots \dots = “ 正 ”$ 的效果。为了消除数据个数对结果的影响，接下来再除以数据个数。
上述是两个变量正相关的情况。负相关的时候，乘积是负值。

总结

对于两个变量X，Y
当他们的相关系数为1时，说明两个变量变化时的正向相速度最大，即，你变大一倍，我也变大一倍；你变小一倍，我也变小一倍。也即是完全正相关（线性关系）。

参考：
第三章大数据分析之术第四节
 如何通俗易懂地解释「协方差」与「相关系数」的概念？

cn_L4EX

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
标准差、方差、协方差、相关系数的设计思路

汇总统计——起源与设计概率分布：直方图、概率表位置度量：均值、中位数散度度量：极差、方差多元比较：相关系数、协方差矩阵模型评估：准确率、召回率通用的设计原则：用单个数或者数的小集合，代表更大的数据集的各种特征效果：在数据处理过程中，肯定是会有部分损失，但少即是多，这样做可以使得某方面的信息更加突出，更能帮助理解数据的含义，而不是陷入海量数据中快速认知数据——概率分布#biao...
复制链接

扫一扫