多元高斯分布是指多维随机变量的联合概率密度函数服从高斯分布,通常用以下公式表示:
p ( x ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(\boldsymbol{x}) = \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right) p(x)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
其中, x \boldsymbol{x} x 是一个 d d d 维的向量, μ \boldsymbol{\mu} μ 是一个 d d d 维的均值向量, Σ \boldsymbol{\Sigma} Σ 是一个 d × d d \times d d×d 的协方差矩阵。
我们的目标是要通过样本数据来估计参数 μ \boldsymbol{\mu} μ 和 Σ \boldsymbol{\Sigma} Σ 的值。根据最大似然估计的原理,我们需要找到一组参数 μ M L \boldsymbol{\mu}_{ML} μML 和 Σ M L \boldsymbol{\Sigma}_{ML} ΣML,使得样本数据在这组参数下出现的概率最大。
首先,我们考虑均值 μ \boldsymbol{\mu} μ 的最大似然估计。假设我们有 N N N 个样本数据 x 1 , x 2 , ⋯ , x N \boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_N x1,x2,⋯,xN,我们的目标是最大化这些样本数据在多元高斯分布下的联合概率密度函数。可以写成如下形式:
L ( μ , Σ ) = ∏ n = 1 N p ( x n ) = ∏ n = 1 N 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ( − 1 2 ( x n − μ ) T Σ − 1 ( x n − μ ) ) = 1 ( 2 π ) N d / 2 ∣ Σ ∣ N / 2 exp ( − 1 2 ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) ) \begin{aligned} L(\boldsymbol{\mu}, \boldsymbol{\Sigma}) &= \prod_{n=1}^N p(\boldsymbol{x}_n) \ &= \prod_{n=1}^N \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\left(-\frac{1}{2}(\boldsymbol{x}_n-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_n-\boldsymbol{\mu})\right) \ &= \frac{1}{(2\pi)^{Nd/2}|\boldsymbol{\Sigma}|^{N/2}}\exp\left(-\frac{1}{2}\sum_{n=1}^N(\boldsymbol{x}_n-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_n-\boldsymbol{\mu})\right) \end{aligned} L(μ,Σ)=n=1∏Np(xn) =n=1∏N(2π)d/2∣Σ∣1/21exp(−21(xn−μ)TΣ−1(xn−μ)) =(2π)Nd/2∣Σ∣N/21exp(−21n=1∑N(xn−μ)TΣ−1(xn−μ))
对上式取对数,并对 μ \boldsymbol{\mu} μ 求偏导数,并令其等于零,可以得到如下的最大似然估计:
μ M L = 1 N ∑ n = 1 N x n \boldsymbol{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^N \boldsymbol{x}_n μML=N1n=1∑Nxn
接下来,我们考虑协方差矩阵 Σ \boldsymbol{\Sigma} Σ 的最大似然估计。同样地,我们要找到一组参数 Σ M L \boldsymbol{\Sigma}_{ML} ΣML,使得样本数据在这组参数下出现的概率最大。同样地,我们对样本数据的联合概率密度函数取对数,然后对 Σ \boldsymbol{\Sigma} Σ 求偏导数,并令其等于零,可以得到如下的最大似然估计:
Σ M L = 1 N ∑ n = 1 N ( x n − μ M L ) ( x n − μ M L ) T \boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^N (\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})(\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})^T ΣML=N1n=1∑N(xn−μML)(xn−μML)T
这个结果表明,协方差矩阵的最大似然估计可以通过样本数据的协方差矩阵来计算。如果我们假设样本数据是独立同分布的,则上述公式可以进一步简化为:
Σ M L = 1 N ∑ n = 1 N ( x n − μ M L ) ( x n − μ M L ) T \boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^N (\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})(\boldsymbol{x}_n - \boldsymbol{\mu}_{ML})^T ΣML=N1n=1∑N(xn−μML)(xn−μML)T
这个公式可以直接用于实际计算。