似然函数与极大似然估计

最新推荐文章于 2023-11-04 21:24:25 发布

Neptune236

最新推荐文章于 2023-11-04 21:24:25 发布

阅读量561

点赞数 1

文章标签：自然语言处理概率论

本文链接：https://blog.csdn.net/Neptune236/article/details/114412340

版权

似然函数与极大似然估计

标签（空格分隔）： ML

似然函数

随机变量 $X$ 的概率分布已知，但是这个分布的参数是未知的，需要我们去估计，我们把他记作 $\theta$ ，好比在抛硬币的试验中，硬币正面朝上的概率是未知的，需要我们去估计，那么此时 $\theta$ 就代表了这个待估计的正面向上的概率值。

随机变量 $X$ 的取值 $x_i$ 表示抛掷 $k$ 次硬币，正面向上的次数，那么这个概率表示为：
$P(\{X=x_i\}) = C_k^{x_i}\theta^{x_i}(1-\theta)^{k-x_i}$

这里需要注意的是， $k$ 和 $x_i$ 都是指定的、已知的，而参数 $\theta$ 是一个未知参数。因此在这个大的背景下，抛掷 $k$ 次，其中有 $x_i$ 次向上的概率是关于一个未知参数 $\theta$ 的函数，我们把他写作是 $P(\{X=x_i\}) = p(x_i;\theta)$ 。

那么此时，我们做 $n$ 次这种实验，每次实验中，都是连续抛掷 $k$ 次硬币，统计正面出现的次数，这样就能取得一系列的样本： $x_1,x_2,x_3,\dots,x_n$ ，这些样本的取值之间满足相互独立，那么这一串样本取得上述取值 $\{X_1=x_1,X_2=x_2,X_3=x_3,\dots,X_n=x_n\}$ 的联合概率为：
$p(x_1;\theta)\cdot p(x_2;\theta)\cdot p(x_3;\theta)\cdot\dots\cdot p(x_n;\theta)$ ，用连乘符号写起来就是 $\prod \limits_{i=1}^n p(x_i;\theta)$
这是一个通用的表达式，实际上，他的未知数就是一个 $\theta$ ，而其他的 $x_i$ 都是已知的样本值。
由此，我们更换一个更加有针对性的写法：
$L(\theta) = L(x_1,x_2,x_3,\dots,x_n;\theta) = \prod \limits_{i=1}^n p(x_i;\theta)$

那么， $L(\theta) = L(x_1,x_2,x_3,\dots,x_n;\theta)$ 就是这一串已知样本值 $x_1,x_2,x_3,\dots,x_n$ 的似然函数，它描述了取得这一串指定样本值的概率值，而这个概率值完全由未知参数 $\theta$ 决定。这就是似然函数的由来。

当然如果 $X$ 是一个连续型的随机变量，我们只要相应的把离散型的概率质量函数替换成连续型的概率密度函数即可：
$L(\theta) = L(x_1,x_2,x_3,\dots,x_n;\theta) = \prod \limits_{i=1}^n f(x_i;\theta)$

极大似然估计：

有了似然函数，我们就可以用似然函数来估计模型的参数了。我们要估计的模型的参数就是使似然函数取极大值的参数。
那么问题就很简单了，对似然函数求导，使得导数为0的 $\theta$ 的取值，就是我们要找的极大似然估计值 $\hat{\theta}$ 。

由于涉及到概率的连乘，而概率值都在 $[0, 1]$ 之间，因此，概率的连乘将会变成一个很小的值，可能会引起浮点数下溢，尤其是当数据集很大的时候，联合概率会趋向于0，非常不利于之后的计算。
所以我们通常会对似然函数取对数（ $f (x)$ 转化为 $l n (f (x))$ ），因为对数函数单调递增的性质，所以
$p(x|\theta_1) > p(x|\theta_2) \Leftrightarrow \ln p(x|\theta_1) > \ln p(x|\theta_2)$ ，因此似然函数的极大值与取对数后的似然函数的极大值是一样的，但是对于求解更方便，这样连乘就变成了连加。
此时再对它求导就变的容易了，如果方程有唯一解，且是极大值点，那么我们就求得了极大似然估计值。
如果有多个未知参数时，可以用偏导数分别对其求导，并建立方程组，最后解得这个方程组就可以了。