Welford算法的推导和实现

最新推荐文章于 2025-04-28 21:37:30 发布

草帽KIKI

最新推荐文章于 2025-04-28 21:37:30 发布

阅读量4.5k

点赞数 8

文章标签：算法 java

本文链接：https://blog.csdn.net/midnight_DJ/article/details/119450244

版权

介绍

该算法是最初由B.P.Welford于1962年提出的计算样本均值和样本方差的算法。
算法如下¹：

初始化 $M_1=x_1，S_1=0$

对于接下来的样本值 $x$ ，使用递推公式

$M_k=M_{k-1}+\frac{x_k-M_{k-1}}{k}$
$S_k=S_{k-1}+(x_k-M_{k-1})(x_k-M_k)$

其中， $2\leqslant{k}\leqslant{n}$ ，第 $k$ 个样本方差估计为 $s^2=\frac{S_k}{(k-1)}$

推导

样本均值²

通常计算均值的方法是
$mean=\frac{total}{count}$
用数学符号表达为：
$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}$
但是传统的计算方法有如下两个弊端：

当累积的总和很大，在使用浮点型数据类型时可能造成精度缺失和溢出问题
计算时必须保存所有数据

这两个问题可以使用一种增加式方法来解决，当有新值出现，再调整均值和方差。

均值可以表示为前n-1个值的均值加上最后的新值除以n：
$\bar{x}=\frac{1}{n}(\sum_{i=1}^{n-1}x_{i}+x_{n})$
其中前n-1个值的均值可以表示为total/sum的形式：
$\bar{x}_{n-1}=\frac{\sum_{i=1}^{n-1}x_{i}}{n-1}$
变换该公式：
$\sum_{i=1}^{n-1}x_{i}=(\bar{x}_{n-1})(n-1)$
使用上式表示前n-1个值的均值，带入均值计算公式：
$\bar{x}_{n}=\frac{1}{n}((n-1)\bar{x}_{n-1}+x_{n})$
展开上式：
$\bar{x}_{n}=\frac{n\bar{x}_{n-1}-\bar{x}_{n-1}+x_n}{n}$
变换一下：
${\color{DarkRed}\bar{x}_{n}=\bar{x}_{n-1}+\frac{x_n-{\bar{x}}_{n-1}}{n}}$
所以当新增一个值时，新的均值等于旧的均值再加上 $\frac{x_n-{\bar{x}}_{n-1}}{n}$