多元正态分布的极大似然估计

Joyliness

已于 2022-12-26 17:54:19 修改

阅读量4w

点赞数 66

文章标签：线性代数矩阵

于 2018-06-20 13:53:12 首次发布

本文链接：https://blog.csdn.net/joyliness/article/details/80097491

版权

本文介绍了多元正态分布的极大似然估计(MLE)方法，详细推导了一元及多元正态分布的密度函数，并给出了均值μ和协方差矩阵Σ的MLE推导过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多元正态分布的极大似然估计

1. 一元正态分布的密度函数

一元正态分布的密度函数表示为：

$\frac{1}{\sqrt {(2 \pi)} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}$ 其中， $\sigma >0$ 。由于 $x$ 、 $\mu$ 均为一维的数值， $\mu)^T$ 与 $\mu)$ 是等价的，所以上述密度函数又可以写成如下形式：

$\frac{1}{(2 \pi)^{\frac{1}{2}} (\sigma^2)^\frac{1}{2} } e^{- \frac{1}{2} (x - \mu)^T (\sigma^2)^{- 1} (x - \mu)}$ 将上式推广，就得到多元正态分布的定义。

2. 多元正态分布的密度函数

设 $K$ 维随机向量 $\left[ \begin{matrix} x_1 \\ ... \\ x_K \end{matrix} \right]$ 的密度函数为：

$f_{\mu, \Sigma}(x) = f_{\mu, \Sigma}(x_1,...,x_K) = \frac{1}{(2 \pi)^{\frac{K}{2}}} \cdot \frac{1}{|\Sigma|^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu)}$ 其中， $K$ 表示向量 $x$ 的维度。均值向量 $\mu$ 是 $K$ 维向量，协方差矩阵 $\Sigma$ 是一个 $\times K$ 的对称正定阵，则称 $x$ 服从 $K$ 元正态分布，也称 $x$ 为 $K$ 维正态随机向量，简记为： $x$ ~ $N_K (\mu, \Sigma)$ 。显然当 $K = 1$ 时，即为一元正态分布的密度函数。

注意，当 $|\Sigma| = 0$ 时， $\Sigma^{-1}$ 不存在， $x$ 也就不存在通常意义下的密度函数，然而可以形式的给出一个表达式。有些问题可以利用这一形式对 $|\Sigma| \neq 0$ 及 $|\Sigma| = 0$ 的情况给出一个统一的处理。

3. 多元正态分布的极大似然估计

对于 $N$ 个样本点： ${ x^1,...,x^N\}$ ，其似然函数为：

$L(\mu, \Sigma) = f_{\mu,\Sigma}(x^1) f_{\mu,\Sigma}(x^2)...f_{\mu,\Sigma}(x^N)$ $\pi)^{- \frac{KN}{2}} \cdot |\Sigma|^{- \frac{N}{2}} \cdot e^{- \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)}$

对数似然函数：

$\ln L(\mu, \Sigma) = - \frac{KN}{2} \ln (2 \pi) - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)$ $\frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)$

其中， $\frac{KN}{2} \ln (2 \pi)$ 为一个常数。

【矩阵代数】

一元微积分中，导数（标量对标量的导数）与微分有联系： $df = f^{'} (x) dx$ 。

多元微积分中，梯度（标量对向量的导数）也与微分有联系： $\sum_{i= 1}^n \frac{\partial f}{\partial x_i} dx_i = \frac{\partial f}{\partial \boldsymbol{x}}^T d \boldsymbol{x}$ 。这里第一个等号是全微分公式，第二个等号表达了梯度与微分的联系：全微分 $df$ 是 $\times 1$ 梯度向量 $\frac{\partial f}{\partial \boldsymbol{x}}$ 与 $\times 1$ 微分向量 $d x$ 的内积。

据此，矩阵导数与微分也可建立联系： $\sum_{i = 1}^m \sum_{j = 1}^n \frac{\partial f}{\partial X_{ij}} dX_{ij} = \text{tr} \left (\frac{\partial f}{\partial X}^T dX \right)$ 。其中， $\text{tr}$ 代表迹（trace），是方阵对角线元素之和，满足性质：对尺寸相同的矩阵 $A$ 、 $B$ 有 $\text{tr} (A^T B) = \sum_{i,j}A_{ij}B_{ij}$ ，即 $\text{tr} (A^T B)$ 是矩阵 $A$ 、 $B$ 的内积。与梯度相似，这里第一个等号是全微分公式，第二个等号表达了矩阵导数矩阵与微分的联系：全微分 $df$ 是 $\times n$ 导数 $\frac{\partial f}{\partial X}$ 与 $\times n$ 微分矩阵 $d X$ 的内积。

矩阵微分的运算法则

加减法： $\pm Y) = dX \pm dY$
矩阵乘法： $d (X Y) = d X Y + X d Y$
转置： $d(X^T) = (dX)^T$
迹： $\text{tr} (X) = \text{tr} (dX)$
逆： $dX^{-1} = -X^{-1}dX X^{-1}$ 。此式可在 $XX^{-1} = I$ 两侧求微分来证明
行列式： $\text{tr}(X^* dX)$ ，其中 $X^*$ 表示 $X$ 的伴随矩阵，在 $X$ 可逆时又可以写作 $|X|\text{tr}(X^{-1}dX)$ 。此式可用Laplace展开来证明，详见张贤达《矩阵分析与应用》第279页

通过矩阵导数与微分的联系： $\text{tr} \left (\frac{\partial f}{\partial X}^T dX \right)$ ，在求出左侧的微分 $df$ 后，可以利用如下一些迹技巧（trace trick）写成右侧的形式并得到导数：

矩阵求导的运算法则

$\frac{\partial X^T A X}{\partial X} = (A + A^T)X$ ，当 $A$ 为实对称矩阵时， $\frac{\partial X^T A X}{\partial x} = 2AX$
当 $A$ 为实对称矩阵时， $\frac{\partial (X^T A X)}{\partial A} = XX^T$ ， $\frac{\partial \ln |A|}{\partial A} = A^{-1}$
$\frac{\partial (X^{-1}) }{\partial t} =- X^{-1} \frac{\partial X}{\partial t} X^{-1}$

对数似然函数分别对 $\mu$ 、 $\Sigma$ 求偏导

由上，对数似然函数：

$\ln L(\mu, \Sigma) = C - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)$

$\ln L(\mu, \Sigma)$ 对 $\mu$ 求偏导，并令偏导为 $0$ ，即求解 $\frac{\partial [\sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)]}{\partial \mu} = 0$ ，记为 $\frac{\partial l_1}{\partial \mu} = 0$

将 $l_1 = \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)$ 展开： $\sum_{n = 1}^N [ (x^n)^T \Sigma^{-1} x^n - 2(x^n)^T \Sigma^{-1} \mu + \mu^T \Sigma^{-1} \mu ]$ $\sum_{n = 1}^N (x^n)^T \Sigma^{-1} x^n - 2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu + N \mu^T \Sigma^{-1} \mu$
对第2项求微分：
$\sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu) = -2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} d \mu = -2 \sum_{n = 1}^N tr((x^n)^T \Sigma^{-1} d \mu)$
所以第2项对 $\mu$ 的偏导为： $\frac{\partial [- 2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu]}{\partial \mu} = -2 \sum_{n = 1}^N ((x^n)^T \Sigma^{-1})^T = -2 \sum_{n = 1}^N \Sigma^{-1} x^n$
第3项对 $\mu$ 的偏导为： $\frac{\partial (N \mu^T \Sigma^{-1} \mu)}{\partial \mu} = 2N \Sigma^{-1} \mu$
$l_1$ 对 $\mu$ 的偏导： $\frac{\partial l_1}{\partial \mu} = -2 \sum_{n = 1}^N \Sigma^{-1} x^n + 2N \Sigma^{-1} \mu$ 令其等于 $0$ ，解得极大似然估计为： $\hat \mu = \frac{1}{N} \sum_{n = 1}^N x^n = \overline{x}$

$\ln L(\mu, \Sigma)$ 对 $\Sigma$ 求偏导，并令偏导为 $0$ ，即求解 $\frac{\partial [\ln |\Sigma| + \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)]}{\partial \Sigma} = 0$ ，记为 $\frac{\partial l_2}{\partial \Sigma} = 0$

首先求微分，使用矩阵乘法、行列式、逆等运算法则
第一项： $[\ln |\Sigma|] = |\Sigma|^{-1} d |\Sigma| = \text{tr} (\Sigma^{-1} d \Sigma)$
第二项：
$[\frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)]$
$\frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T d \Sigma^{-1} (x^n - \mu)$
$\frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu)$
套上迹，作交换
第一项不变 $\text{tr} (\Sigma^{-1} d \Sigma)$
第二项：
$\text{tr} \left (- \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu) \right)$
$\frac{1}{N} \sum_{n = 1}^N \text{tr} ((x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu))$
$\frac{1}{N} \sum_{n = 1}^N \text{tr} (\Sigma^{-1} (x^n - \mu) (x^n - \mu)^T \Sigma^{-1} d \Sigma)$
$\text{tr} \left (- \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1} d \Sigma \right)$
其中，第一个等号先交换了 $\text{tr}$ 与 $\sum$ ，第二个等号将 $\Sigma$ 右边式子交换到左边，第三个等号再一次交换 $\text{tr}$ 与 $\sum$ 。
所以， $l_2 = \text{tr} \left( (\Sigma^{-1} - \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1}) d \Sigma \right)$ ，对照导数与微分的联系有： $\frac{\partial l_2}{\partial \Sigma} = (\Sigma^{-1} - \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1})^T$ 令其等于 $0$ ，解得极大似然估计为： $\hat \Sigma = \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)(x^n - \mu)^T$ 将 $\hat \mu = \overline{x}$ 代入上式得： $\hat \Sigma = \frac{1}{N} \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T$ 。