交叉熵和极大似然估计的再理解

最新推荐文章于 2024-12-07 00:00:00 发布

zenRRan

最新推荐文章于 2024-12-07 00:00:00 发布

阅读量716

点赞数

文章标签：算法机器学习人工智能 python 深度学习

来自：纸鱼AI

对于一个多分类问题(假设为类)，有数据集。我们希望建立模型去建模概率分布，模型参数为。

我们使用损失函数评估模型的好坏，可以采用两种方式来导出。

极大似然估计

由于是多分类问题，故样本空间上的满足某个分类分布。由分类分布定义知，

其中，是分布的参数，也是分布的输出概率向量。是one-hot编码的标签向量。

例如对于一个天气4分类问题，输出概率向量如下(向右滑动)：

p = {'rain': .14, 'snow': .37, 'sleet': .03, 'hail': .46}

则分类为snow的概率为

我们使用极大似然估计去估计分布参数。注意：这里极大似然估计并，。

假设有个样本：，则似然函数为

我们期望最大化似然估计，即最小化负对数似然函数：

由于采用one-hot编码，故的项乘积均为0，只需考虑时。故上述函数可变形为：

交叉熵

信息论背景知识补习

Chaos processes more information.

信息一般可以被表述为不确定性的程度，有如下特性

一定发生的事件没有信息
很有可能发生的事件几乎没有信息
随机事件拥有更多的信息
独立事件可以增加信息——抛两次正面的骰子的信息量大于抛一次正面骰子的信息量

事件的信息可以形式化为：

熵用于衡量信息的多少，被定义为：

离散随机变量的熵即：

若以2为底，则可以衡量编码信息的比特数多少。在信息论中，信息与随机性是正相关的。高熵等于高随机性，需要更多的比特来编码。

例如，计算丢一枚硬币的熵(公式向右滑动)：

则我们可以用1位比特来编码。

KL Divergence常用于衡量两个分布的距离，被定义为(公式向右滑动)

故对于离散型随机变量而言(公式向右滑动)，

source: wikipedia

注意，KL距离并不对称。

熵可以衡量编码信息的最少比特数，交叉熵则可以衡量使用Q的错误优化编码方案对具有分布P的x进行编码的最小比特数。其被定义为(公式向右滑动)：

同时，其可以被写为(公式向右滑动)：

由于与模型参数无关，可以视为常数。故最小化KL距离等价于最小化交叉熵。

在深度学习中，一般为真实标签的分布，一般为模型预测输出的分布。

交叉熵损失函数

我们希望能够最小化真实分布与模型输出分布的距离，等价于最小化两者的交叉熵，其被定义为(公式向右滑动)：

由此可见，最小化交叉熵和最小化负对数似然函数是等价的。

参考链接

[1] http://willwolf.io/2017/05/18/minimizing_the_negative_log_likelihood_in_english/

[2] https://www.quora.com/What-are-the-differences-between-maximum-likelihood-and-cross-entropy-as-a-loss-function

[3] https://jhui.github.io/2017/01/05/Deep-learning-Information-theory/

[4] https://en.wikipedia.org/wiki/Categorical_distribution

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

整理不易，还望给个在看！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。