【机器学习】分别从极大似然和熵的角度来看交叉熵损失

参考:交叉熵和对数损失函数之间的关系

            SoftMax函数,交叉熵损失函数与熵,对数似然函数 

                                        从极大似然的角度

                                                  从熵的角度

假设样本为X,其对应的类别为Y,P(Y|X)就是给定X判断为Y的后验概率。我们希望每一个样本X被正确预测到相应类别Y的概率都最大,即max P(Y|X),那么所有样本正确预测概率相乘最大化就是我们所期望的,因此采用极大似然的原理。

Step1:构建似然函数

Step2:构建对数似然函数,以简便运算

Step3:构建损失函数

我们的目标是希望对数似然函数更大,即等价于使负的对数似然函数最小,即。因此损失函数为:

对于单个样本有对数(似然)损失函数由此而来

首先引入信息量,信息量即信息多少的度量。公式表达如下,是事件x发生的概率。

之后引入信息熵,信息熵就是信息量的期望,它代表了一个系统的不确定性,系统中信息熵越大,事件x的不确定性越大

   

对于一个样本集,存在两个概率分布p(x)和q(x),其中p(x)为真实分布,q(x)为非真实分布(是我们预测的概率分布)。基于真实分布p(x)表示这个样本集的信息熵如下:

如果用非真实分布q(x)来表示样本集的信息量的话,有:

这个就是交叉熵

一般情况下为多分类时,有:

其中P表示样本X被预测到正确类别Y的概率。则损失函数为:

这也就是多分类的交叉熵损失。这里y=1,因为对数损失只考虑样本X被正确预测到相应类别Y的概率尽可能大,无需考虑错分为其他类别的概率。

多分类情况下,q(x)是我们正确将模型预测为相应类别的概率,对应于左边的概率P。真实分布p(x)表示这个样本本身就为对应类别的概率,就为1。可以这么理解,假设这个样本的类别为2,那么它就是客观的真实的类别为2,不可能为其他类别,所以真实概率为1,对应于左边的y。则有:

对应于极大似然角度下的多分类交叉熵损失

特殊地,当是二分类时,如逻辑回归,P为模型预测为类别1的概率,那么预测为类别0的概率就为1-P,则有:

此时套用上面的对数损失函数有:

 

即就是二分类的交叉熵损失

特殊地,当是二分类时,则有

  • 这里表示类别为1的样本x被正确判断的真实概率,对应于左边的y,为1。相应地, 是类别为0的样本x被正确判断的真实概率,为
  • 示类别为1的样本x被预测为1类别概率,对应于左边的P。相应地, 是类别为0的样本x被正确判断为0类的概率,为

因此有:

对应于极大似然角度下的二分类交叉熵损失

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值