方差为什么用平方不用绝对值,为什么要对差值求平方而不是取标准偏差的绝对值?...

方差使用平方的原因在于欧几里得距离的计算,它是最佳的分散度量。通过对差值平方,可以得到与自由度平方根成正比的距离。这适用于多维空间,且与正交测量一致。标准差是方差的平方根,平均绝对偏差(MAD)虽然对异常值更鲁棒,但在某些情况下可能低估离散度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为什么要对差值求平方而不是取标准偏差的绝对值?

我们将x与平均值的差平方为平方,这是因为与自由度的平方根成正比的欧几里德距离(以人口度量,x的数量)是分散的最佳度量。

计算距离

0点到5点的距离是多少?

5−0=55−0=5,

|0−5|=5|0−5|=5和

52−−√=552=5

好的,这很简单,因为它是一个单一维度。

点0、0到点3、4的距离如何?

如果我们一次只能输入一维数据(例如在城市街区​​中),那么我们只需将数字相加即可。(有时称为曼哈顿距离)。

但是一下子进入二维呢?然后(通过我们在高中都学过的毕达哥拉斯定理),我们对每个维度的距离求平方,对平方求和,然后取平方根求出从原点到点的距离。

32+42−−−−−−√=25−−√=532+42=25=5

从0、0、0点到1、2、2的距离如何?

这只是

12+22+22−−−−−−−−−−√=9–√=312+22+22=9=3

因为前两个x的距离构成了计算最终x的总距离的支路。

x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√x12+x222+x32=x12+x22+x32

对于超维空间中的正交测量,我们可以继续扩展对每个维度的距离进行平方的规则,将其推广到所谓的欧几里得距离,如下所示:

distance=∑i=1nx2i−−−−−√distance=∑i=1nxi2

因此正交平方和就是距离的平方:

distance2=∑i=1nx2idistance2=∑i=1nxi2

是什么使测量与另一个正交(或成直角)?条件是两次测量之间没有关系。我们希望这些度量是独立且独立分布的(iid)。

方差

现在回想一下总体方差的公式(从中我们可以得到标准差):

σ2=∑i=1n(xi−μ)2nσ2=∑i=1n(xi−μ)2n

如果我们已经通过减去平均值将数据居中于0,则可以得到:

σ2=∑i=1n(xi)2nσ2=∑i=1n(xi)2n

因此,我们看到方差仅是平方距离除以自由度数(变量可以自由变化的维度数)。这也是每次测量对的平均贡献。“均方差”也将是一个适当的术语。distance2distance2

标准偏差

然后我们有了标准偏差,它只是方差的平方根:

σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2n

等效地,距离,除以自由度的平方根:

σ=∑i=1n(xi)2−−−−−−−√n−−√σ=∑i=1n(xi)2n

平均绝对偏差

平均绝对偏差(MAD)是使用曼哈顿距离或与均值之差的绝对值之和得出的色散度量。

MAD=∑i=1n|xi−μ|nMAD=∑i=1n|xi−μ|n

同样,假设数据居中(减去均值),则用曼哈顿距离除以测量次数:

MAD=∑i=1n|xi|nMAD=∑i=1n|xi|n

讨论区

平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍(实际上是2/π−−−√2/π)。

无论分布如何,平均绝对偏差都小于或等于标准偏差。MAD低估了相对于标准偏差的极值数据集的离散度。

平均绝对偏差对异常值的鲁棒性更高(即,异常值对统计的影响不如对标准差的影响大。

从几何学上讲,如果测量值彼此不正交(例如,id),例如,如果它们是正相关的,则平均绝对偏差将比标准偏差更好地描述统计量,标准偏差取决于欧几里得距离(尽管通常认为这很好) )。

该表以更简洁的方式反映了上述信息:

sizesize,∼Noutliersnoti.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedokMADσsize≤σ≥MADsize,∼N.8×σ1.25×MADoutliersrobustinfluencednoti.i.d.robustok

评论:

您是否具有“平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍”的参考?我正在运行的模拟表明这是不正确的。

这是标准正态分布中100万个样本的10个模拟:

>>>fromnumpy.randomimportstandard_normal>>>fromnumpyimportmean,absolute>>>for_inrange(10):...array=standard_normal(1_000_000)...print(numpy.std(array),mean(absolute(array-mean(array))))...0.99993032268079940.79806342692730351.0011264618080810.79858329777989810.99942472755338930.79801716498026130.99941421053354780.79723671363208481.00011882118177260.7980215643159371.0004426544812970.79818452369108421.00015375187282320.79755549937424031.00028383691919820.7981431082500630.99990601144553840.7978952841095231.00048710656801650.798726062813422

结论

在计算色散度量时,我们更喜欢平方差,因为我们可以利用欧几里得距离,从而为色散提供了更好的描述统计。当存在更多相对极值时,欧几里得距离占统计数据中的极值,而曼哈顿距离为每个度量值赋予相等的权重。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值