方差为什么用平方不用绝对值,为什么要对差值求平方而不是取标准偏差的绝对值？...-CSDN博客

方差使用平方的原因在于欧几里得距离的计算，它是最佳的分散度量。通过对差值平方，可以得到与自由度平方根成正比的距离。这适用于多维空间，且与正交测量一致。标准差是方差的平方根，平均绝对偏差（MAD）虽然对异常值更鲁棒，但在某些情况下可能低估离散度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么要对差值求平方而不是取标准偏差的绝对值？

我们将x与平均值的差平方为平方，这是因为与自由度的平方根成正比的欧几里德距离(以人口度量，x的数量)是分散的最佳度量。

计算距离

0点到5点的距离是多少？

5−0=55−0=5，

|0−5|=5|0−5|=5和

52−−√=552=5

好的，这很简单，因为它是一个单一维度。

点0、0到点3、4的距离如何？

如果我们一次只能输入一维数据(例如在城市街区中)，那么我们只需将数字相加即可。(有时称为曼哈顿距离)。

但是一下子进入二维呢？然后(通过我们在高中都学过的毕达哥拉斯定理)，我们对每个维度的距离求平方，对平方求和，然后取平方根求出从原点到点的距离。

32+42−−−−−−√=25−−√=532+42=25=5

从0、0、0点到1、2、2的距离如何？

这只是

12+22+22−−−−−−−−−−√=9–√=312+22+22=9=3

因为前两个x的距离构成了计算最终x的总距离的支路。

x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√x12+x222+x32=x12+x22+x32

对于超维空间中的正交测量，我们可以继续扩展对每个维度的距离进行平方的规则，将其推广到所谓的欧几里得距离，如下所示：

distance=∑i=1nx2i−−−−−√distance=∑i=1nxi2

因此正交平方和就是距离的平方：

distance2=∑i=1nx2idistance2=∑i=1nxi2

是什么使测量与另一个正交(或成直角)？条件是两次测量之间没有关系。我们希望这些度量是独立且独立分布的(iid)。

方差

现在回想一下总体方差的公式(从中我们可以得到标准差)：

σ2=∑i=1n(xi−μ)2nσ2=∑i=1n(xi−μ)2n

如果我们已经通过减去平均值将数据居中于0，则可以得到：

σ2=∑i=1n(xi)2nσ2=∑i=1n(xi)2n

因此，我们看到方差仅是平方距离除以自由度数(变量可以自由变化的维度数)。这也是每次测量对的平均贡献。“均方差”也将是一个适当的术语。distance2distance2

标准偏差

然后我们有了标准偏差，它只是方差的平方根：

σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2n

等效地，距离，除以自由度的平方根：

σ=∑i=1n(xi)2−−−−−−−√n−−√σ=∑i=1n(xi)2n

平均绝对偏差

平均绝对偏差(MAD)是使用曼哈顿距离或与均值之差的绝对值之和得出的色散度量。

MAD=∑i=1n|xi−μ|nMAD=∑i=1n|xi−μ|n

同样，假设数据居中(减去均值)，则用曼哈顿距离除以测量次数：

MAD=∑i=1n|xi|nMAD=∑i=1n|xi|n

讨论区

平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍(实际上是2/π−−−√2/π)。

无论分布如何，平均绝对偏差都小于或等于标准偏差。MAD低估了相对于标准偏差的极值数据集的离散度。

平均绝对偏差对异常值的鲁棒性更高(即，异常值对统计的影响不如对标准差的影响大。

从几何学上讲，如果测量值彼此不正交(例如，id)，例如，如果它们是正相关的，则平均绝对偏差将比标准偏差更好地描述统计量，标准偏差取决于欧几里得距离(尽管通常认为这很好) )。

该表以更简洁的方式反映了上述信息：

sizesize,∼Noutliersnoti.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedokMADσsize≤σ≥MADsize,∼N.8×σ1.25×MADoutliersrobustinfluencednoti.i.d.robustok

评论：

您是否具有“平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍”的参考？我正在运行的模拟表明这是不正确的。

这是标准正态分布中100万个样本的10个模拟：

>>>fromnumpy.randomimportstandard_normal>>>fromnumpyimportmean,absolute>>>for_inrange(10):...array=standard_normal(1_000_000)...print(numpy.std(array),mean(absolute(array-mean(array))))...0.99993032268079940.79806342692730351.0011264618080810.79858329777989810.99942472755338930.79801716498026130.99941421053354780.79723671363208481.00011882118177260.7980215643159371.0004426544812970.79818452369108421.00015375187282320.79755549937424031.00028383691919820.7981431082500630.99990601144553840.7978952841095231.00048710656801650.798726062813422

结论

在计算色散度量时，我们更喜欢平方差，因为我们可以利用欧几里得距离，从而为色散提供了更好的描述统计。当存在更多相对极值时，欧几里得距离占统计数据中的极值，而曼哈顿距离为每个度量值赋予相等的权重。