为什么要对差值求平方而不是取标准偏差的绝对值?
我们将x与平均值的差平方为平方,这是因为与自由度的平方根成正比的欧几里德距离(以人口度量,x的数量)是分散的最佳度量。
计算距离
0点到5点的距离是多少?
5−0=55−0=5,
|0−5|=5|0−5|=5和
52−−√=552=5
好的,这很简单,因为它是一个单一维度。
点0、0到点3、4的距离如何?
如果我们一次只能输入一维数据(例如在城市街区中),那么我们只需将数字相加即可。(有时称为曼哈顿距离)。
但是一下子进入二维呢?然后(通过我们在高中都学过的毕达哥拉斯定理),我们对每个维度的距离求平方,对平方求和,然后取平方根求出从原点到点的距离。
32+42−−−−−−√=25−−√=532+42=25=5
从0、0、0点到1、2、2的距离如何?
这只是
12+22+22−−−−−−−−−−√=9–√=312+22+22=9=3
因为前两个x的距离构成了计算最终x的总距离的支路。
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√x12+x222+x32=x12+x22+x32
对于超维空间中的正交测量,我们可以继续扩展对每个维度的距离进行平方的规则,将其推广到所谓的欧几里得距离,如下所示:
distance=∑i=1nx2i−−−−−√distance=∑i=1nxi2
因此正交平方和就是距离的平方:
distance2=∑i=1nx2idistance2=∑i=1nxi2
是什么使测量与另一个正交(或成直角)?条件是两次测量之间没有关系。我们希望这些度量是独立且独立分布的(iid)。
方差
现在回想一下总体方差的公式(从中我们可以得到标准差):
σ2=∑i=1n(xi−μ)2nσ2=∑i=1n(xi−μ)2n
如果我们已经通过减去平均值将数据居中于0,则可以得到:
σ2=∑i=1n(xi)2nσ2=∑i=1n(xi)2n
因此,我们看到方差仅是平方距离除以自由度数(变量可以自由变化的维度数)。这也是每次测量对的平均贡献。“均方差”也将是一个适当的术语。distance2distance2
标准偏差
然后我们有了标准偏差,它只是方差的平方根:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2n
等效地,距离,除以自由度的平方根:
σ=∑i=1n(xi)2−−−−−−−√n−−√σ=∑i=1n(xi)2n
平均绝对偏差
平均绝对偏差(MAD)是使用曼哈顿距离或与均值之差的绝对值之和得出的色散度量。
MAD=∑i=1n|xi−μ|nMAD=∑i=1n|xi−μ|n
同样,假设数据居中(减去均值),则用曼哈顿距离除以测量次数:
MAD=∑i=1n|xi|nMAD=∑i=1n|xi|n
讨论区
平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍(实际上是2/π−−−√2/π)。
无论分布如何,平均绝对偏差都小于或等于标准偏差。MAD低估了相对于标准偏差的极值数据集的离散度。
平均绝对偏差对异常值的鲁棒性更高(即,异常值对统计的影响不如对标准差的影响大。
从几何学上讲,如果测量值彼此不正交(例如,id),例如,如果它们是正相关的,则平均绝对偏差将比标准偏差更好地描述统计量,标准偏差取决于欧几里得距离(尽管通常认为这很好) )。
该表以更简洁的方式反映了上述信息:
sizesize,∼Noutliersnoti.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedokMADσsize≤σ≥MADsize,∼N.8×σ1.25×MADoutliersrobustinfluencednoti.i.d.robustok
评论:
您是否具有“平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍”的参考?我正在运行的模拟表明这是不正确的。
这是标准正态分布中100万个样本的10个模拟:
>>>fromnumpy.randomimportstandard_normal>>>fromnumpyimportmean,absolute>>>for_inrange(10):...array=standard_normal(1_000_000)...print(numpy.std(array),mean(absolute(array-mean(array))))...0.99993032268079940.79806342692730351.0011264618080810.79858329777989810.99942472755338930.79801716498026130.99941421053354780.79723671363208481.00011882118177260.7980215643159371.0004426544812970.79818452369108421.00015375187282320.79755549937424031.00028383691919820.7981431082500630.99990601144553840.7978952841095231.00048710656801650.798726062813422
结论
在计算色散度量时,我们更喜欢平方差,因为我们可以利用欧几里得距离,从而为色散提供了更好的描述统计。当存在更多相对极值时,欧几里得距离占统计数据中的极值,而曼哈顿距离为每个度量值赋予相等的权重。