正态分布的极大似然估计一个示例，详细展开的方程求解步骤

正义的彬彬侠

于 2024-10-01 18:25:47 发布

阅读量536

点赞数 9

分类专栏：机器学习数学基础文章标签：机器学习概率论决策树人工智能

本文链接：https://blog.csdn.net/u013172930/article/details/142673194

版权

机器学习同时被 2 个专栏收录

54 篇文章 1 订阅

订阅专栏

数学基础

24 篇文章 0 订阅

订阅专栏

此示例是什么是极大似然估计中的一个例子，本文的目的是给出更加详细的方程求解步骤，便于数学基础不好的同学理解。

目标

假设我们有一组样本数据 $x_1, x_2, \dots, x_n$ ，它们来自一个正态分布 $N(\mu, \sigma^2)$ ，我们的目标是通过极大似然估计（MLE）来找到正态分布的两个参数 $\mu$ 和 $\sigma^2$ 。

对数似然函数

正态分布的概率密度函数为：
$f(x_i | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$

给定样本 $x_1, x_2, \dots, x_n$ ，样本的似然函数为：
$L(\mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$

对似然函数取对数，得到对数似然函数：
$\ell(\mu, \sigma^2) = \log L(\mu, \sigma^2) = \sum_{i=1}^n \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) \right)$

我们可以将对数似然函数分解为三部分：
$\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2$

现在我们分别对 $\mu$ 和 $\sigma^2$ 求导。

一、对 $\mu$ 求导

首先，对 $\mu$ 求导，方程中的 $\mu$ 仅出现在最后一项 $\sum_{i=1}^n (x_i - \mu)^2$ 中，因此我们只对这一项求导：
$\ell(\mu, \sigma^2) = -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2$

对 $\mu$ 求导：
$\frac{\partial \ell}{\partial \mu} = -\frac{1}{2\sigma^2} \cdot 2 \sum_{i=1}^n (x_i - \mu) (-1)$

简化后为：
$\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu)$

将这个导数设为 0，来找到 $\mu$ 的极大似然估计：
$\frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0$

因为 $\sigma^2 \neq 0$ ，我们可以省略 $\frac{1}{\sigma^2}$ ，得到：
$\sum_{i=1}^n (x_i - \mu) = 0$

简化为：
$n\mu = \sum_{i=1}^n x_i$

因此， $\mu$ 的极大似然估计为：
$\hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i$

这意味着，样本的均值是 $\mu$ 的极大似然估计。

二、对 $\sigma^2$ 求导

接下来我们对 $\sigma^2$ 求导。对数似然函数中关于 $\sigma^2$ 的部分是：
$\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2$

我们对 $\sigma^2$ 求导，逐项进行求导：

第一项 $-\frac{n}{2} \log(2\pi)$ 是常数，对 $\sigma^2$ 求导为 0。
第二项 $-\frac{n}{2} \log(\sigma^2)$ ：

使用对数函数的求导公式 $\frac{d}{d\sigma^2} (\log \sigma^2) = \frac{1}{\sigma^2}$ ，我们有：
$\frac{\partial}{\partial \sigma^2} \left( -\frac{n}{2} \log(\sigma^2) \right) = -\frac{n}{2\sigma^2}$
第三项 $-\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2$ ：

使用 $\frac{d}{d\sigma^2} \left( \frac{1}{\sigma^2} \right) = -\frac{1}{\sigma^4}$ ，我们得到：
$\frac{\partial}{\partial \sigma^2} \left( - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right) = \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2$

将各项导数结果组合

我们将对数似然函数中所有关于 $\sigma^2$ 的项求导结果组合起来：
$\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2$

设置导数为 0，解出 $\sigma^2$

为了找到 $\sigma^2$ 的极大似然估计，我们将导数设为 0：
$-\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = 0$

1. 消去常数 $\frac{1}{2}$

为了简化方程，两边同时乘以 2 消去常数：
$-\frac{n}{\sigma^2} + \frac{1}{\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = 0$

2. 将 $\frac{n}{\sigma^2}$ 移到右边

将方程重排：
$\frac{1}{\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = \frac{n}{\sigma^2}$

3. 乘以 $\sigma^4$

为了消去 $\sigma^4$ ，我们将方程两边乘以 $\sigma^4$ ：
$\sum_{i=1}^n (x_i - \mu)^2 = n \sigma^2$

4. 解出 $\sigma^2$

将 $\sigma^2$ 留在一边，解出：
$\sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2$

这个结果就是 $\sigma^2$ 的极大似然估计，即样本方差公式。

总结

我们通过对正态分布的对数似然函数分别对 $\mu$ 和 $\sigma^2$ 求导，得到以下结论：

均值 $\mu$ 的极大似然估计：
$\hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i$
即样本的均值是 $\mu$ 的极大似然估计。
方差 $\sigma^2$ 的极大似然估计：
$\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2$
即样本方差是 $\sigma^2$ 的极大似然估计。