极大似然估计

最新推荐文章于 2023-02-01 16:48:15 发布

changsoon

最新推荐文章于 2023-02-01 16:48:15 发布

阅读量9k

点赞数 2

分类专栏：机器学习贝叶斯分类器文章标签：机器学习贝叶斯分类器极大似然估计

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

贝叶斯分类器

2 篇文章 0 订阅

订阅专栏

本文摘自《机器学习》周志华著清华大学出版社
本文摘自《概率论与数理统计》陈希孺著中国科学技术大学出版社

极大似然估计

定义

设总体有分布 $f(x;\theta_1, ..., \theta_k), X_1, ..., X_n$ 为自这个总体中抽出的样本，则样本 $(X_1, ..., X_n)$ 的分布（即其概率密度函数或概率函数为）

f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...θk), $f(x_1; \theta_1, ..., \theta_k) f(x_2; \theta_1, ..., \theta_k) ... f(x_n; \theta_1, ... \theta_k),$

记为 $L(x_1, ..., x_n; \theta_1, ... \theta_k)。$
固定 $\theta_1, ..., \theta_k$ ，而看作 $x_1, ..., x_n$ 的函数时， $L$ 是一个概率密度函数或概率函数。可以这样理解：若 $L(Y_1, ..., Y_n; \theta_1, ..., \theta_k) > L(X_1, ..., X_n; \theta_1, ..., \theta_k)$ ，则在观察时出现 $(Y_1, ..., Y_n)$ 这个点的可能性要比出现 $(X_1, ..., X_n)$ 这个点的可能性大。把这件事情反过来说，可以这样想：当已观察到 $X_1, ..., X_n$ 时，若 $L(X_1, ..., X_n; \theta_1^{'}, ..., \theta_k^{'}) > L(X_1, ..., X_n; \theta_1^{''}, ..., \theta_k^{''})$ ，则被估计的参数 $(\theta_1, ..., \theta_k)$ 是 $(\theta_1^{'}, ..., \theta_k^{'})$ 的可能性要比它是 $(\theta_1^{''}, ..., \theta_k^{''})$ 的可能性要大。
当 $X_1, ..., X_n$ 固定而把 $L$ 看做 $\theta_1, ..., \theta_k$ 的函数时，它称为“似然函数”。这个名称的意义，可根据上述分析得到理解：这个函数对不同的 $(\theta_1, ..., \theta_k)$ 取值，反映了在观察结果 $(X_1, ..., X_n)$ 已知的条件下， $(\theta_1, ..., \theta_k)$ 的各种值得“似然程度”。注意，这里有些像贝叶斯公式中的推理：把观察值 $X_1, ..., X_n$ 看成结果，而把参数值 $(\theta_1, ..., \theta_k)$ 看成是导致这个结果的原因。现已有了结果了，要反过来推算各种原因的概率。这里，参数 $\theta_1, ..., \theta_k$ 有一定的值（虽然未知），并非事件或随机变量，无概率可言，于是就改用“似然”这个词。
由上述分析就自然地导致如下的方法：应该用似然程度最大的那个点 $(\theta_1^{*}, ..., \theta_k^{*})$ ，即满足下面条件：

L(X1,...,Xn;θ∗1,...,θ∗k)=maxL(X1,...,Xn;θ1,...,θk)θ1,...,θk 公式（1） $L(X_1, ..., X_n; \theta_1^{*}, ..., \theta_k^{*}) = \underset{\theta_1, ..., \theta_k \qquad \qquad \qquad \qquad \qquad \ \ \ }{\max{L(X_1, ..., X_n; \theta_1, ..., \theta_k)}} \qquad 公式（1）$

的 $(\theta_1^{*}, ..., \theta_k^{*})$ 去做 $(\theta_1, ..., \theta_k)$ 的估计值，因为在已得到的样本 $X_1, ..., X_n$ 的条件下，这个“看来最像”是真参数值。这个估计 $(\theta_1^{*}, ... \theta_n^{*})$ 就叫做 $(\theta_1, ..., \theta_n)$ 的“极大似然估计”。如果要估计的是 $g(\theta_1, ..., \theta_k)$ ，则 $g(\theta_1^{*}, ..., \theta_n^{*})$ 是它的极大似然估计。因为

lnL=∑ni=1lnf(Xi;θ1,...,θk),公式（2） $\ln{L} = \sum_{i = 1}^{n}\ln{f(X_i; \theta_1, ..., \theta_k)} ,\qquad 公式（2）$

且为使 $L$ 达到最大，只需使 $\ln{L}$ 达到最大，故在 $f$ 对 $\theta_1, ..., \theta_k$ 存在连续的偏导数时，可建立方程组（称为似然方程组）：

∂lnL∂θi=0(i=1,...,k)公式（3） $\frac{\partial{\ln{L}}}{\partial{\theta_i}} = 0 \quad (i = 1, ..., k) \qquad 公式（3）$

如果这个方程组有唯一解，又能验证它是一个极大值点，则它必是使 $L$ 达到最大的点，即最大似然估计。在几个常见的重要例子中，这一点不难验证。可是，在较复杂的场合，方程组（3）可以有不止一组解，求出这样的解很费计算，且不容易判定哪一个使 $L$ 达到最大。
有时，函数 $f$ 并不对 $\theta_1, ..., \theta_k$ 可导，甚至 $f$ 本身也不连续，这是方程组（3）就没有办法应用了，必须回归到原来的定义公式（1）中。

实例

上面讲的内容太抽象，那砸门来个例题来看看极大似然估计是如何解决问题。
考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即，我们获取一个采样 $x_1 = H, x_2 = T, \ldots, x_{80}= T$ 并把正面的次数记下来，正面记为H，反面记为T).并把抛出一个正面的概率记为 $p$ , 抛出一个反面的概率记为 $1 − p$ (因此，这里的p即相当于上边的θ). 假设我们抛出了49个正面，31 个反面，即49次H，31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为p = 1 / 3, p = 1 / 2, p = 2 / 3. 这些硬币没有标记，所以我们无法知道哪个是哪个。使用最大似然估计, 通过这些试验数据(即采样数据)，我们可以计算出哪个硬币的可能性最大。这个可能性函数取以下三个值中的一个:

P(H=49,T=31 | p=13)=(8049)(13)49×(1−13)31≈0.000 $P(H = 49, T = 31 \ \vert \ p = \frac{1}{3}) = \binom{80}{49}(\frac{1}{3})^{49} \times (1 - \frac{1}{3})^{31} \approx 0.000$

P(H=49,T=31 | p=12)=(8049)(12)49×(1−12)31≈0.012 $P(H = 49, T = 31 \ \vert \ p = \frac{1}{2}) = \binom{80}{49}(\frac{1}{2})^{49} \times (1 - \frac{1}{2})^{31} \approx 0.012$

P(H=49,T=31 | p=13)=(8049)(23)49×(1−23)31≈0.054 $P(H = 49, T = 31 \ \vert \ p = \frac{1}{3}) = \binom{80}{49}(\frac{2}{3})^{49} \times (1 - \frac{2}{3})^{31} \approx 0.054$

从上面的算式可以看出， $\hat{p} = \frac{2}{3}$ 时，似然函数取得最大值，为0.054。

最大似然估计在各种分布中的运用

正态分布

设 $X_1, ..., X_n$ 是从正态总体 $N(\mu, \sigma^2)$ 中抽出的样本，则似然函数为：

L=∏i=1n[(2πσ2‾‾‾‾‾√)−1exp(−12σ2(Xi−μ)2]) ,公式（4） $L = \prod\limits_{i = 1}^{n}[(\sqrt{2 \pi \sigma^2})^{-1}\exp({-\frac{1}{2 \sigma^2}(X_i - \mu)^2}])\ , \qquad 公式（4）$

故，

lnL=−n2ln(2π)−n2lnσ2−12σ2∑i=1n(Xi−μ)2 $\ln{L} = -\frac{n}{2}\ln{(2\pi)} - \frac{n}{2}\ln{\sigma^2} - \frac{1}{2 \sigma^2}\sum\limits_{i = 1}^{n}(X_i - \mu)^2$

求方程组（3）（把 $\sigma^2$ 作为一个整体看）。

f (x) = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ \partial ln L \partial μ = 1 σ 2 \sum i = 1 n (X i - μ) = 0, \partial ln L \partial σ 2 = - n 2 σ 2 + 1 2 σ 4 \sum i = 1 n (X i - μ) 2 = 0

$f(x)=\left\{ \begin{aligned} \frac{\partial{\ln{L}}}{\partial{\mu}} = \frac{1}{\sigma^2}\sum_{i=1}^{n}\big( X_i - \mu \big) = 0 \ , \qquad \qquad \ \\ \frac{\partial{\ln{L}}}{\partial{\sigma^2}} = -\frac{n}{2 \sigma^2} + \frac{1}{2\sigma^4}\sum\limits_{i=1}^{n}\big( X_i - \mu \big)^2 = 0 \end{aligned} \right.$

由第一式得出，

μ∗=∑i=1nXin=X¯ , $\mu^* = \sum\limits_{i = 1}^{n} \frac{X_i}{n} = \bar{X} \ ,$

由此带入式2中，得到 $\sigma^2$ 的解为：

σ∗2=∑i=1n(Xi−X¯)2n=m2 $\sigma^{*2} = \sum\limits_{i = 1}^{n} \frac{(X_i - \bar{X})^2}{n} = m_2$

我们看到： $\mu$ 和 $\sigma$ 的极大似然估计 $\mu^*$ 和 $\sigma^*$ 与其矩估计完全一样。在本例中，容易肯定 $(\mu^*, \sigma^*)$ 确是使似然函数 $L$ 达到最大值得点。因为似然方程组只有唯一的根 $(\mu^*, \sigma^*)$ ，而这个点不可能是 $L$ 的极小值点。因为由 $L$ 的表达式公式（4）可知，当 $\lvert \mu \rvert \rightarrow \infty$ 或 $\sigma^2 \rightarrow 0$ 时， $L$ 趋向于0，而 $L$ 在每个点出都大于0。以下几个例子类似。

指数分布

设 $X_1, ...,X_n$ 是从指数分布总体中抽出的样本，求参数 $\lambda$ 的极大似然估计。有

L=∏i=1n(λe−λXi) , $L = \prod\limits_{i = 1}^{n}\big( \lambda e^{-\lambda X_i} \big) \ ,$

故，

lnL=nlnλ−λ∑i=1nXi , $\ln{L } = n \ln{\lambda} - \lambda \sum\limits_{i = 1}^{n} X_i \ ,$

解方程，

∂lnL∂λ=nλ−∑i=1nXi=0 , $\frac{\partial{\ln{L}}}{\partial{\lambda}} = \frac{n}{\lambda} - \sum\limits_{i = 1}^{n} X_i = 0 \ ,$

得 $\lambda$ 的极大似然估计为

λ∗=n∑i=1nXi=1X⎯⎯ , $\lambda^* = \frac{n}{\sum\limits_{i = 1}^{n}X_i} = \frac{1}{\overline{X}} \ ,$

仍与其矩估计一样。但是在这里，极大似然估计只有一个。

均匀分布

设 $X_i, ..., X_n$ 是从均匀分布 $R(0, \theta)$ 的总体中抽出的样本，求 $\theta$ 的极大似然估计。
当 $0 < X_i < \theta$ 时， $X_i$ 的密度函数为 $\frac{1}{\theta}$ ，此外为0。故似然函数 $L$ 为

L = {θ - n, 当 0 < X i < θ 0, 其 他 情 况

$L=\left\{ \begin{aligned} \theta^{-n} \ , \quad 当0 < X_i < \theta \\ 0 \ , \quad \ \ \ \ 其他情况 \qquad \ \end{aligned} \right.$

对固定的 $X_1, ..., X_n$ ，此函数为 $\theta$ 的间断函数，故无法使用似然方程。但此例不难直接使用定义公式（1）去解决：为使 $L$ 达到最大， $\theta$ 必须尽量小，但不能太小以致 $L$ 为0。这个界线就在 $\theta^* = max(X_1, ..., X_n)$ 处：当 $\theta \ge \theta^*$ 时， $L$ 大于0且为 $\theta^{-n}$ ；当 $\theta < \theta^*$ 时， $L$ 为0。故唯一使 $L$ 达到最大值的 $\theta$ 值，即 $\theta$ 的极大似然估计，为 $\theta^*$ 。
如果使用矩阵法，则因总体分布的均值为 $\frac{\theta}{2}$ ， $\theta$ 的矩估计为 $\hat{\theta} = 2 \overline{X}$ 。

柯西分布

设总体分布有密度函数

f(x,θ)=1π[1+(x−θ2)](−∞<x<∞)公式（5） $f(x, \theta) = \frac{1}{\pi [1 + (x - \theta^2)]} \quad (-\infty < x < \infty) \qquad 公式（5）$

这个分布包含一个参数 $\theta$ ， $\theta$ 可取任何实数值。这个分布叫做柯西分布，其密度作为 $x$ 的函数，关于 $\theta$ 对称。故 $\theta$ 是这个分布的中位数。
现设 $X_1, ..., X_N$ 为自这个总体中抽出的样本，要估计 $\theta$ 。由于

∑i=1nXi−θ1+(Xi−θ)2=0, $\sum\limits_{i = 1}^{n} \frac{X_i - \theta}{1 + (X_i - \theta)^2} = 0 \quad,$

这个方程有很多根，且求根不容易。因此，对本例而言，极大似然估计法也不是理想的方法。
为估计参数 $\theta$ ，有一个简答易行但考来合理的方法可用。这个方法基于 $\theta$ 是总体分布的中位数这个事实。既然如此，我们就要设法在样本 $X_1, ..., X_n$ 中找到一种对应于中位数的东西。这个思想其实在矩估计法中已经使用过了，因为总体矩在样本中对应物就是样本矩。
现在把 $X_1, ..., X_n$ 按由小到大顺序排成一列，得：

X(1)≤X(2)≤ ... ≤X(n) $X_{(1)} \le X_{(2)} \le \ ... \ \le X_{(n)}$ ,

$\ \ \$ 公式（6）

它们称为次序统计量。既然中位数是“居中”的意思，我们就在样本中找到居中者：

m ̂ = ⎧ ⎩ ⎨ ⎪ ⎪ X ( n + 1 ) 2, 当 n 为 奇 数 时 （ X (n 2) + X (n 2 + 1) ） / 2, 当 n 为 偶 数 时

$\hat{m} = \left\{ \begin{aligned} X_{\frac{(n + 1)}{2}} \ , \qquad \qquad 当n为奇数时\\ （X_{(\frac{n}{2})} + X_{(\frac{n}{2} + 1)}） / \ 2 \ , \qquad 当n为偶数时 \end{aligned} \right.$

当 $n$ 为奇数的时候，有一个居中者，为 $X_{(\frac{(n+1)}{2})}$ ；当 $n$ 为偶数，就没有一个居中者，那就把最居中的两个平均，这样定义的 $\hat{m}$ 叫做“样本中位数”。我们就拿 $\hat{m}$ 作为 $\theta$ 的估计。
就正态总体 $N(\mu, \sigma^2)$ 而言， $\mu$ 也是总体的中位数，故 $\mu$ 也可以用样本的中位数去估计。从这些例子中，我们看出一点：统计推断问题，往往可以从许多看来都合理的途径去考虑，并无一成不变的方法，不同解固然有优劣之分，但这种优劣也是相对于一定的准则而言，并无绝对的价值。下述情况也并非不常见：估计甲在某一准则下优于乙，而乙又在另一准则下优于甲。

注意

需要注意的是，这种参数变化的方法虽能使类条件使类条件概率估计变得相对简单，但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中，欲做出能较好接近潜在真实分布的假设，往往需在一定程度上利用关于应用任务本身的经验知识，否则若仅凭“猜测”来假设概率分布形式，很可能产生误导性的结果。