多维情况下均值方差递推公式的推导

多维情况下均值方差递推公式的推导

均值

μ ^ n + 1 = 1 n + 1 ∑ n = 1 n + 1 x n = 1 n + 1 ( ∑ n = 1 n x n + x n + 1 ) = 1 n + 1 ∑ n = 1 n x n + x n + 1 n + 1 = n n + 1 1 n ∑ n = 1 n x n + 1 n + 1 x n + 1 = n n + 1 μ ^ n + 1 n + 1 x n + 1 = μ ^ n + 1 n + 1 ( x n + 1 − μ ^ n ) \begin{aligned} \hat{\mu}_{n+1} &=\frac{1}{n+1} \sum_{n=1}^{n+1} x_{n} \\ &=\frac{1}{n+1}\left(\sum_{n=1}^{n} x_{n}+x_{n+1}\right) \\ &=\frac{1}{n+1} \sum_{n=1}^{n} x_{n}+\frac{x_{n+1}}{n+1} \\ &=\frac{n}{n+1} \frac{1}{n} \sum_{n=1}^{n} x_{n}+\frac{1}{n+1} x_{n+1} \\ &=\frac{n}{n+1} \hat{\mu}_{n}+\frac{1}{n+1} x_{n+1} \\ &=\hat{\mu}_{n}+\frac{1}{n+1}\left(x_{n+1}-\hat{\mu}_{n}\right) \end{aligned} μ^n+1=n+11n=1n+1xn=n+11(n=1nxn+xn+1)=n+11n=1nxn+n+1xn+1=n+1nn1n=1nxn+n+11xn+1=n+1nμ^n+n+11xn+1=μ^n+n+11(xn+1μ^n)

方差

C n + 1 = 1 n ∑ i = 1 n + 1 ( x i − μ ^ n + 1 ) ( x i − μ ^ n + 1 ) t \begin{aligned} C_{n+1} &=\frac{1}{n} \sum_{i=1}^{n+1}\left(x_{i}-\hat{\mu}_{n+1}\right)\left(x_{i}-\hat{\mu}_{n+1}\right)^t \end{aligned} Cn+1=n1i=1n+1(xiμ^n+1)(xiμ^n+1)t

n C n + 1 = ∑ i = 1 n + 1 [ ( x i − μ ^ n ) + ( μ ^ n − μ ^ n + 1 ) ] [ ( x i − μ ^ n ) + ( μ ^ n − μ ^ n + 1 ) ] t = ∑ i = 1 n + 1 ( x i − μ ^ n ) ( x i − μ ^ n ) t + ∑ i = 1 n + 1 ( μ ^ n − μ ^ n + 1 ) ( μ ^ n − μ ^ n + 1 ) t + ∑ i = 1 n + 1 ( x i − μ ^ n ) ( μ ^ n − μ ^ n + 1 ) t + ∑ i = 1 n + 1 ( μ ^ n − μ ^ n + 1 ) ( x i − μ ^ n ) t \begin{aligned} n C_{n+1} &=\sum_{i=1}^{n+1}[\left(x_{i}-\hat{\mu}_{n}\right)+\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)][\left(x_{i}-\hat{\mu}_{n}\right)+\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)]^t\\ &=\sum_{i=1}^{n+1}(x_{i}-\hat{\mu}_{n})(x_{i}-\hat{\mu}_{n})^t+\sum_{i=1}^{n+1}(\hat{\mu}_{n}-\hat{\mu}_{n+1})(\hat{\mu}_{n}-\hat{\mu}_{n+1})^t\\ &\quad+\sum_{i=1}^{n+1}(x_{i}-\hat{\mu}_{n})(\hat{\mu}_{n}-\hat{\mu}_{n+1})^t+\sum_{i=1}^{n+1}(\hat{\mu}_{n}-\hat{\mu}_{n+1})(x_{i}-\hat{\mu}_{n})^t \end{aligned} nCn+1=i=1n+1[(xiμ^n)+(μ^nμ^n+1)][(xiμ^n)+(μ^nμ^n+1)]t=i=1n+1(xiμ^n)(xiμ^n)t+i=1n+1(μ^nμ^n+1)(μ^nμ^n+1)t+i=1n+1(xiμ^n)(μ^nμ^n+1)t+i=1n+1(μ^nμ^n+1)(xiμ^n)t
其中
∑ i = 1 n + 1 ( x i − μ ^ n ) ( x i − μ ^ n ) t = ∑ i = 1 n ( x i − μ ^ n ) ( x i − μ ^ n ) t + ( x n + 1 − μ ^ n ) ( x n + 1 − μ ^ n ) t = ( n − 1 ) C n + ( x n + 1 − μ ^ n ) ( x n + 1 − μ ^ n ) t = ( n − 1 ) C n + [ ( n + 1 ) μ ^ n + 1 − n μ ^ n − μ ^ n ] [ ( n + 1 ) μ ^ n + 1 − n μ ^ n − μ ^ n ] t = ( n − 1 ) C n + ( n + 1 ) 2 ( μ ^ n + 1 − μ ^ n ) ( μ ^ n + 1 − μ ^ n ) t \begin{aligned} \sum_{i=1}^{n+1}(x_{i}-\hat{\mu}_{n})(x_{i}-\hat{\mu}_{n})^t &=\sum_{i=1}^{n}(x_{i}-\hat{\mu}_{n})(x_{i}-\hat{\mu}_{n})^t+(x_{n+1}-\hat{\mu}_{n})(x_{n+1}-\hat{\mu}_{n})^t\\ &=(n-1)C_n+(x_{n+1}-\hat{\mu}_{n})(x_{n+1}-\hat{\mu}_{n})^t\\ &=(n-1)C_n+[(n+1)\hat\mu_{n+1}-n\hat\mu_n-\hat{\mu}_{n}][(n+1)\hat\mu_{n+1}-n\hat\mu_n-\hat{\mu}_{n}]^t\\ &=(n-1)C_n+(n+1)^2(\hat\mu_{n+1}-\hat\mu_n)(\hat\mu_{n+1}-\hat\mu_n)^t\\ \end{aligned} i=1n+1(xiμ^n)(xiμ^n)t=i=1n(xiμ^n)(xiμ^n)t+(xn+1μ^n)(xn+1μ^n)t=(n1)Cn+(xn+1μ^n)(xn+1μ^n)t=(n1)Cn+[(n+1)μ^n+1nμ^nμ^n][(n+1)μ^n+1nμ^nμ^n]t=(n1)Cn+(n+1)2(μ^n+1μ^n)(μ^n+1μ^n)t

∑ i = 1 n + 1 ( μ ^ i − μ ^ n + 1 ) ( μ ^ i − μ ^ n + 1 ) t = ( n + 1 ) ( μ ^ n − μ ^ n + 1 ) ( μ ^ n − μ ^ n + 1 ) t \sum_{i=1}^{n+1}(\hat\mu_{i}-\hat{\mu}_{n+1})(\hat\mu_{i}-\hat{\mu}_{n+1})^{t}=(n+1)(\hat\mu_n-\hat\mu_{n+1})(\hat\mu_n-\hat\mu_{n+1})^t i=1n+1(μ^iμ^n+1)(μ^iμ^n+1)t=(n+1)(μ^nμ^n+1)(μ^nμ^n+1)t

∑ i = 1 n + 1 ( x i − μ ^ n ) ( μ ^ n − μ ^ n − 1 ) t = [ ∑ i = 1 n + 1 ( x i + u ^ n ) ] ( μ ^ n − μ ^ n − 1 ) t = ( x 1 + . . . + x n + x n + 1 − ( n + 1 ) μ ^ n ) ( μ ^ n − μ ^ n + 1 ) t = ( n μ ^ n + x n + 1 − ( n + 1 ) μ ^ n ) ( μ ^ n − μ ^ n + 1 ) t = ( − μ ^ n + x n + 1 ) ( μ ^ n − μ ^ n + 1 ) t = ( − μ ^ n + ( n + 1 ) μ ^ n + 1 − n μ ^ n ) ( μ ^ n − μ ^ n + 1 ) t = ( n + 1 ) ( μ ^ n + 1 − μ ^ n ) ( u ^ n − μ ^ n + 1 ) t = − ( n + 1 ) ( μ ^ n − μ ^ n + 1 ) ( μ ^ n − μ ^ n + 1 ) t \begin{aligned} \sum_{i=1}^{n+1}\left(x_{i}-\hat{\mu}_{n}\right)\left(\hat{\mu}_{n}-\hat{\mu}_{n-1}\right)^t&=[\sum_{i=1}^{n+1}\left(x_{i}+\hat{u}_{n}\right)]\left(\hat{\mu}_{n}-\hat{\mu}_{n-1}\right)^t\\ &=(x_1+...+x_n+x_{n+1}-(n+1)\hat\mu_n)\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)^t\\ &=(n\hat\mu_n+x_{n+1}-(n+1)\hat\mu_n)\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)^t\\ &=(-\hat\mu_n+x_{n+1})\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)^t\\ &=(-\hat\mu_n+(n+1)\hat\mu_{n+1}-n\hat\mu_n)\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)^t\\ &=(n+1)(\hat\mu_{n+1}-\hat\mu_n)\left(\hat{u}_{n}-\hat{\mu}_{n+1}\right)^t\\ &=-(n+1)\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)^t \end{aligned} i=1n+1(xiμ^n)(μ^nμ^n1)t=[i=1n+1(xi+u^n)](μ^nμ^n1)t=(x1+...+xn+xn+1(n+1)μ^n)(μ^nμ^n+1)t=(nμ^n+xn+1(n+1)μ^n)(μ^nμ^n+1)t=(μ^n+xn+1)(μ^nμ^n+1)t=(μ^n+(n+1)μ^n+1nμ^n)(μ^nμ^n+1)t=(n+1)(μ^n+1μ^n)(u^nμ^n+1)t=(n+1)(μ^nμ^n+1)(μ^nμ^n+1)t
类似的,有
∑ i = 1 n + 1 ( μ ^ n − μ ^ n + 1 ) ( x i − μ ^ n ) t = − ( n + 1 ) ( μ ^ n − μ ^ n + 1 ) ( μ ^ n − μ ^ n + 1 ) t \sum_{i=1}^{n+1}(\hat{\mu}_{n}-\hat{\mu}_{n+1})(x_{i}-\hat{\mu}_{n})^t=-(n+1)\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)\left(\hat{\mu}_{n}-\hat{\mu}_{n+1}\right)^t i=1n+1(μ^nμ^n+1)(xiμ^n)t=(n+1)(μ^nμ^n+1)(μ^nμ^n+1)t
带回原式有
n C n + 1 = ( n − 1 ) C n + n ( n + 1 ) ( μ ^ n + 1 − μ ^ n ) ( μ ^ n + 1 − μ ^ n ) t n C_{n+1}=(n-1)C_{n}+n(n+1)(\hat{\mu}_{n+1}-\hat{\mu}_{n})(\hat{\mu}_{n+1}-\hat{\mu}_{n})^t nCn+1=(n1)Cn+n(n+1)(μ^n+1μ^n)(μ^n+1μ^n)t
又由
( n + 1 ) ( μ ^ n + 1 − μ ^ n ) = 1 n + 1 ( x n + 1 − μ ^ n ) (n+1)(\hat{\mu}_{n+1}-\hat{\mu}_{n})=\frac{1}{n+1}(x_{n+1}-\hat{\mu}_{n}) (n+1)(μ^n+1μ^n)=n+11(xn+1μ^n)
化简得
C n + 1 = n − 1 n C n + 1 n + 1 ( x n + 1 − μ ^ n ) ( x n + 1 − μ ^ n ) t C_{n+1}=\frac{n-1}{n}C_{n}+\frac{1}{n+1}\left(x_{n+1}-\hat{\mu}_{n}\right)\left(x_{n+1}-\hat{\mu}_{n}\right)^{t} Cn+1=nn1Cn+n+11(xn+1μ^n)(xn+1μ^n)t

多元高斯分布是指多维随机变量的联合概率密度函数服从高斯分布,通常用以下公式表示: $$ p(\boldsymbol{x}) = \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right) $$ 其中,$\boldsymbol{x}$ 是一个 $d$ 维的向量,$\boldsymbol{\mu}$ 是一个 $d$ 维的均值向量,$\boldsymbol{\Sigma}$ 是一个 $d \times d$ 的协方差矩阵。 我们的目标是要通过样本数据来估计参数 $\boldsymbol{\mu}$ 和 $\boldsymbol{\Sigma}$ 的值。根据最大似然估计的原理,我们需要找到一组参数 $\boldsymbol{\mu}_{ML}$ 和 $\boldsymbol{\Sigma}_{ML}$,使得样本数据在这组参数下出现的概率最大。 首先,我们考虑均值 $\boldsymbol{\mu}$ 的最大似然估计。假设我们有 $N$ 个样本数据 $\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_N$,我们的目标是最大化这些样本数据在多元高斯分布下的联合概率密度函数。可以写成如下形式: $$ \begin{aligned} L(\boldsymbol{\mu}, \boldsymbol{\Sigma}) &= \prod_{n=1}^N p(\boldsymbol{x}_n) \\ &= \prod_{n=1}^N \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\left(-\frac{1}{2}(\boldsymbol{x}_n-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_n-\boldsymbol{\mu})\right) \\ &= \frac{1}{(2\pi)^{Nd/2}|\boldsymbol{\Sigma}|^{N/2}}\exp\left(-\frac{1}{2}\sum_{n=1}^N(\boldsymbol{x}_n-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_n-\boldsymbol{\mu})\right) \end{aligned} $$ 对上式取对数,并对 $\boldsymbol{\mu}$ 求偏导数,并令其等于零,可以得到如下的最大似然估计: $$ \boldsymbol{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^N \boldsymbol{x}_n $$ 接下来,我们考虑协方差矩阵 $\boldsymbol{\Sigma}$ 的最大似然估计。同样地,我们要找到一组参数 $\boldsymbol{\Sigma}_{ML}$,使得样本数据在这组参数下出现的概率最大。同样地,我们对样本数据的联合概率密度函数取对数,然后对 $\boldsymbol{\Sigma}$ 求偏导数,并令其等于零,可以得到如下的最大似然估计: $$ \boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^N (\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})(\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})^T $$ 这个结果表明,协方差矩阵的最大似然估计可以通过样本数据的协方差矩阵来计算。如果我们假设样本数据是独立同分布的,则上述公式可以进一步简化为: $$ \boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^N (\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})(\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})^T $$ 这个公式可以直接用于实际计算。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值