【数理统计】最大似然估计与交叉熵

Zachery_zka

已于 2023-12-06 17:45:05 修改

阅读量181

点赞数

文章标签：概率论

于 2023-12-06 16:19:06 首次发布

本文链接：https://blog.csdn.net/qq_41603726/article/details/134833549

版权

最大似然估计

什么是参数估计？假设我们有一个映射函数 $f_\theta$ 可以将输入 $X\in R^n$ 映射到一个概率，其中 $\theta$ 是映射函数的参数，未知待求解。现在我们有一组采样值 ${X_i\}$ ，诉求是通过这些采样值估计一下映射函数的参数，本质上呢就是根据采样值得到随机变量 $X$ 的联合分布。常用的方法有矩估计法、最大似然估计，而最大似然估计在机器学习中很常见，值得学习一下。

最大似然，字面意思上理解就是“最像那么回事的”。我们不妨将映射函数记为 $f(X,\theta)$ 。根据第i个样本 $X_i$ 可以得到一个输出 $f_\theta(X_i)$ ，我们可以理解为在这一次采样中可以得到那么多值，但我们恰恰得到了 $X_i$ ，翻译翻译就是得到 $X_i$ 样本的概率很大啊。在这个想法的基础上，我们把 $\theta$ 作为变量，从样本 $X_i$ 这一采样结果，我们得到的信息是， $\theta$ 应该使 $f(X_i,\theta)$ 最大（函数将输入映射为概率，应该找一组参数使概率最大）。现在我们有N个采样，将其N个概率乘起来得到了似然函数： $L_\theta=\prod_i f(X_i,\theta)$ ，最大似然估计就是求一组参数 $\hat\theta$ ，使似然函数最大：
$\hat\theta = \argmax_{\theta}L_\theta= \argmax_{\theta}\prod_i f(X_i,\theta)$

现将问题转换到二分类问题中，将映射函数的输出记为 $Y$ ，可以是分类问题中的标签0和1，采样结果为 ${(X_i,Y_i)\}$ 。当 $Y_i=1$ 时应该似然函数为 $f(X_i,\theta)$ ，当 $Y_i=0$ 时似然函数为 $1-f(X_i,\theta)$ ，此时将似然函数写为如下形式：
$L_\theta=\prod_i f(X_i,\theta)^{Y_i}(1-f(X_i,\theta))^{1-Y_i}$ ，最大似然估计为：
$\hat\theta = \argmax_{\theta}\prod_i f(X_i,\theta)^{Y_i}(1-f(X_i,\theta))^{1-Y_i}$
一般求解最大似然估计问题，都会取对数将连乘转换为连加。并且由此可以推导出二分类的交叉熵损失函数，由于 $L_\theta\propto lnL_\theta$ ，因此：
$\hat\theta = \argmax_{\theta}lnL_\theta\\ =\argmax_{\theta}\sum_iY_ilnf_\theta(X_i)+(1-Y_i)ln(1-f_\theta(X_i))\\ =\argmax_{\theta}\sum_iY_iln\hat{Y_i}+(1-Y_i)ln(1-\hat{Y_i})$
最优化问题通常求最小值，加上负号就得到了二分类的交叉熵损失函数：
$BCELoss=-\sum_iY_iln\hat{Y_i}+(1-Y_i)ln(1-\hat{Y_i})$

可以看到， $Y_i$ 和 $1-Y_i$ 的作用类似于选择，将BCE可以扩展到CrossEntropyLoss，而交叉熵损失其实就是二分类交叉熵损失的自然扩展，扩展到C个类别而已：
$CELoss=-\sum_iln\hat{y_{i,c}}$ ，其中 $\hat{y_{i,c}}=Logsoftmax(\hat{Y_i}[c])$ ，假设 $\hat{Y_i}\in \mathbb{R}^C$ ， $\hat{Y_i}[c]$ 表示取第c个元素，之前pytorch上的公式看不懂，就是因为没有理解这个意思。

交叉熵

交叉熵也能推出上面的交叉熵损失函数。交叉熵用到了信息论，使用 $I(X_i)$ 表示随机事件 $X$ 的某一次采样 $X_i$ 所蕴含的信息量级：
$I(X_i)=-logP(X_i)$
，意思是概率越小的采样事件所包含的信息量越大。就比如一个经典的例子：“明天下雨”这个事件要比“明天太阳从东方升起”这个事件包含的信息量更大，因为太阳明天一定从东方升起，而明天下雨不一定。而熵则定义为信息量的期望：
$H(P)=\mathbb{E}_{X\sim P}I(X)=-\frac{1}{N}\sum_iP(X_i)logP(X_i)$
KL散度用来衡量两个分布P和Q的相似度，
$D_{KL}(P,Q)=\mathbb{E}_{X\sim P}log\frac{P(X)}{Q(X)}=\frac{1}{N}\sum_iP(X_i)logP(X_i)-P(X_i)logQ(X_i)\\ =H(P,Q)-H(P)$
Q是模型需要学习的分布，而P是数据的分布，所以P是无参的， $H (P)$ 不会对优化目标有什么影响，故 $H (P, Q)$ 就可以代替KL散度来作为衡量两个分布的指标，它也被称为交叉熵。
$H(P,Q)=-\frac{1}{N}\sum_iP(X_i)logQ(X_i)$
它和pytorch上的公式似乎长得不太一样：
$l_{n}=-w_{y_{n}} \log \frac{\exp \left(x_{n, y_{n}}\right)}{\sum_{c=1}^{C} \exp \left(x_{n, c}\right)} \cdot 1$
注意pytorch公式上的那个1，其实就是 $P(X_i)$ 。pytorch的计算公式中 $Q(X_i)$ 取的是模型输出的第c个值，c表示类别，而 $X_i$ 就是第c个类别的，而 $c=y_n$ 得知的。 $x_{n, y_{n}}$ 的意思是 $x_n$ 的第 $y_n$ 个值 $x_n[y_n]$ 。我们已知 $X_i$ 是属于第c类的，模型的输出表示各个类别的概率，所以 $Q(X_i)$ 就是取输出向量的第c位，其他位舍弃。
换一种思考方式，假设分类任务中共有C个类别，由于分布P是固定无参的，所以 $P(X_i)\in \mathbb{R}^{1\times C}$ ，其中第c位为1，其余位为0，而 $Q(X_i)\in \mathbb{R}^{C\times 1}$ 是各个类别的概率，两个向量相乘就是pytorch的计算公式。

Zachery_zka

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
【数理统计】最大似然估计与交叉熵

最大（函数将输入映射为概率，应该找一组参数使概率最大）。常用的方法有矩估计法、最大似然估计，而最大似然估计在机器学习中很常见，值得学习一下。，诉求是通过这些采样值估计一下映射函数的参数，本质上呢就是根据采样值得到随机变量。，我们可以理解为在这一次采样中可以得到那么多值，但我们恰恰得到了。一般求解最大似然估计问题，都会取对数将连乘转换为连加。是映射函数的参数，未知待求解。现将问题转换到二分类问题中，将映射函数的输出记为。，可以是分类问题中的标签0和1，采样结果为。这一采样结果，我们得到的信息是，
复制链接

扫一扫