3.2_最大似然估计

最新推荐文章于 2024-08-17 16:08:34 发布

Gantnocap

最新推荐文章于 2024-08-17 16:08:34 发布

阅读量922

点赞数 25

分类专栏：模式识别与机器学习文章标签：概率论机器学习人工智能算法线性代数

本文链接：https://blog.csdn.net/2301_79449205/article/details/135044575

版权

模式识别与机器学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

类条件概率 $P(\mathbf{x}|\omega_i)$ 又称似然概率，

对于最大似然估计，有基本假设：

要估计的参数 $\theta$ ，是确定的但未知的量（不是随机量）；
每类的样本集记作 $K_i\quad i=1,2,\dots, c$ ,其中的样本都是从概率密度为 $P(\mathbf{x}|\omega_i)$ 的总体中独立抽取出来的，即满足独立同分布，i.i.d；
概率密度函数的形式已知，参数未知。为了描述概率密度函数 $P(\mathbf{x}|\omega_i)$ 与参数 $\theta$ 的依赖关系，用 $P(\mathbf{x}|\omega_i, \theta)$ 来表示，对于同一类别可简化为 $P(\mathbf{x}|\theta)$ ;
各类样本只包含本类的分布信息，也就是说，不同类别的参数是独立的，这样就可以分别对每一类单独处理。

在这些假设的前提下，我们就可以分别处理c个独立的问题，即在一类中独立地按照概率密度 $P(\mathbf{x}|\theta)$ 抽取样本集 $K$ ，用 $K$ 来估计出未知参数 $\theta$ 。

这样样本集包含N个样本，即
$K=\{\mathbf{x}_1,\mathbf{x}_2,\dots, \mathbf{x}_N\}, \quad \mathbf{x}_i是d维向量 \tag{1}$

由于样本是独立地从 $P(\mathbf{x}|\theta)$ 中抽取的，所以在概率密度为 $P(\mathbf{x}|\theta)$ 时，获得样本集 $K$ 的概率，即出现 $K$ 中各个样本的联合概率是：
$L(\theta) = P(K|\theta) = P(\mathbf{x}_1, \mathbf{x}_2,\dots, \mathbf{x}_N|\theta)=\prod_{i=1}^N P(\mathbf{x}_i|\theta) \tag{2}$

这个式子反映了在概率密度函数的参数是 $\theta$ 时，得到上式中这组样本的概率。
式（2）为 $\theta$ 的函数，它反映的是在不同参数取值下取得当前样本集的可能性，我们希望这个可能性最大时，确定 $\theta$ 的值。

总之，似然函数 $L(\theta)$ 给出了从该类总体中抽出 $\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N$ 这样N个样本的概率。一般来说，使得这个概率最大的 $\theta$ 是我们需要的最大似然估计量。其具体的定义为：

令 $L(\theta)$ 为样本集 $K$ 的似然函数， $K=\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N\}$ ，如果 $\hat{\theta}=d(\mathbf{x}_1, \mathbf{x}_2,\dots, \mathbf{x}_N)$ 是参数空间 ${\Theta}$ 中能使似然函数 $L(\theta)$ 极大化的 $\theta$ 值，那么 $\hat{\theta}$ 就是 $\theta$ 的最大似然估计量，记作：
$\hat{\theta} = \argmax L(\theta)\tag{3}$

定义对数似然函数：
$H(\theta) = \ln L(\theta) = \ln \prod_{i=1}^N P(\mathbf{x}_i|\theta) = \sum_{i=1}^N\ln P(\mathbf{x}_i|\theta) \tag{4}$

2. 最大似然估计的求解

若 $\theta$ 是一维，则 $\argmax L(\theta)$ 就是 $L'(\theta)=0$ 对应驻点处，即 $\frac{dL(\theta)}{d\theta}=0$ 的解，
若 $\mathbf{\theta}=[\theta_1, \theta_2, \dots, \theta_s]$ 为多维向量时，求解其最大值就需要对 $\mathbf{\theta}$ 的每一维求偏导，即用下面的梯度算子：
$\nabla_\theta = [\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2}, \dots, \frac{\partial}{\partial\theta_s}]^T \tag{5}$
对似然函数求偏导，有多少个参数求多少个偏导，并令其等于0，最后求出驻点。
并不是所有的概率密度都用上述方法求最值，假设一维随机变量x服从均匀分布：
$P(x|\theta) = \begin{cases}\frac{1}{\theta_2-\theta_1}, \theta_1 <x<\theta_2 \\ 0,\quad else \end{cases}\tag{6}$
其中分布的参数 $\theta_1, \theta_2$ 未知，从总体分布中独立抽取了N个样本 $x_1, x_2, \dots, x_N$ , 则似然函数为：
$P(x|\theta) = \begin{cases}P(x_1, x_2, \dots, x_N|\theta_1, \theta_2)=\frac{1}{(\theta_2-\theta_1)^N}, x\in(\theta_1, \theta_2) \\ 0,\quad \quad \quad else\end{cases} \tag{7}$
对数似然函数为：
$H(\theta) = -N\ln(\theta_2-\theta_1) \tag{8}$
若按照求导=0求极值，则有：
$\frac{\partial{H}}{\partial{\theta}_1}=N\frac{1}{\theta_2-\theta_1}=0, \quad \frac{\partial{H}}{\partial{\theta}_2}=-N\frac{1}{\theta_2-\theta_1}=0 \tag{9}$
要使上式为0，则 $\theta_2-\theta_1 \rightarrow \infin$ 至少一个参数为无穷大，这是无意义的，无法确定 $\hat{\theta}$ 。这个时候从原式出发 $L(\theta)=\frac{1}{(\theta_2-\theta_1)^N}$ ，要使其最大化，则 $\theta_2-\theta_1$ 要尽可能小，这意味着随机变量的取值区间要越小。同时这个区间还必须包含所有的观察值，则 $\theta_1$ 应该取样本中最小的观察值， $\theta_2$ 应该取样本中最大的观察值，使得均匀分布的区间尽可能的覆盖所有观察值。