【机器学习】分别从极大似然和熵的角度来看交叉熵损失

最新推荐文章于 2022-02-12 08:53:56 发布

Mr_health

最新推荐文章于 2022-02-12 08:53:56 发布

阅读量413

点赞数 3

分类专栏：概率论机器学习文章标签：机器学习信息熵概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr_health/article/details/107625454

版权

机器学习同时被 2 个专栏收录

28 篇文章 2 订阅

订阅专栏

9 篇文章 1 订阅

订阅专栏

参考：交叉熵和对数损失函数之间的关系

SoftMax函数，交叉熵损失函数与熵，对数似然函数

从极大似然的角度

从熵的角度

假设样本为X，其对应的类别为Y，P(Y|X)就是给定X判断为Y的后验概率。我们希望每一个样本X被正确预测到相应类别Y的概率都最大，即max P(Y|X)，那么所有样本正确预测概率相乘最大化就是我们所期望的，因此采用极大似然的原理。

Step1：构建似然函数

Step2：构建对数似然函数，以简便运算

Step3：构建损失函数

我们的目标是希望对数似然函数更大，即等价于使负的对数似然函数最小，即。因此损失函数为：

对于单个样本有，对数（似然）损失函数由此而来。

首先引入信息量，信息量即信息多少的度量。公式表达如下，是事件x发生的概率。

之后引入信息熵，信息熵就是信息量的期望，它代表了一个系统的不确定性，系统中信息熵越大，事件x的不确定性越大。

对于一个样本集，存在两个概率分布p(x)和q(x)，其中p(x)为真实分布，q(x)为非真实分布（是我们预测的概率分布）。基于真实分布p(x)表示这个样本集的信息熵如下：

如果用非真实分布q(x)来表示样本集的信息量的话，有：

这个就是交叉熵。

一般情况下为多分类时，有：

其中P表示样本X被预测到正确类别Y的概率。则损失函数为：

这也就是多分类的交叉熵损失。这里y=1，因为对数损失只考虑样本X被正确预测到相应类别Y的概率尽可能大，无需考虑错分为其他类别的概率。

多分类情况下，q(x)是我们正确将模型预测为相应类别的概率，对应于左边的概率P。真实分布p(x)表示这个样本本身就为对应类别的概率，就为1。可以这么理解，假设这个样本的类别为2，那么它就是客观的真实的类别为2，不可能为其他类别，所以真实概率为1，对应于左边的y。则有：

即对应于极大似然角度下的多分类交叉熵损失

特殊地，当是二分类时，如逻辑回归，P为模型预测为类别1的概率，那么预测为类别0的概率就为1-P，则有:

此时套用上面的对数损失函数有：

即就是二分类的交叉熵损失

特殊地，当是二分类时，则有

这里表示类别为1的样本x被正确判断的真实概率，对应于左边的y，为1。相应地，是类别为0的样本x被正确判断的真实概率，为。
示类别为1的样本x被预测为1类别概率，对应于左边的P。相应地，是类别为0的样本x被正确判断为0类的概率，为。

因此有:

即对应于极大似然角度下的二分类交叉熵损失

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】分别从极大似然和熵的角度来看交叉熵损失

从极大似然的角度从熵的角度假设样本为X，其对应的类别为Y，P(Y|X)就是给定X判断为Y的后验概率。我们希望每一个样本X被正确预测到相应类别Y的概率都最大，即max P(Y|X)，那么所有样本正确预测概率相乘最大化就是我们所期望的，因此采用极大似然的原理 Step1：构...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。