简单的交叉熵损失函数,你真的懂了吗?

说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:

 

L=−[ylog ŷ +(1−y)log (1−ŷ )]

 

我们已经对这个交叉熵函数非常熟悉,大多数情况下都是直接拿来使用就好。但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?也许很多朋友还不是很清楚!没关系,接下来我将尽可能以最通俗的语言回答上面这几个问题。

1. 交叉熵损失函数的数学原理

我们知道,在二分类问题模型:例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等,真实样本的标签为 [0,1],分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大。

Sigmoid 函数的表达式和图形如下所示:

 

g(s)=11+e−s

 

 


这里写图片描述

 

其中 s 是模型上一层的输出,Sigmoid 函数有这样的特点:s = 0 时,g(s) = 0.5;s >> 0 时, g ≈ 1,s << 0 时,g ≈ 0。显然,g(s) 将前一级的线性输出映射到 [0,1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出 。

我们说了,预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率:

 

ŷ =P(y=1|x)

 

很明显,当前样本标签为 0 的概率就可以表达成:

 

1−ŷ =P(y=0|x)

 

重点来了,如果我们从极大似然性的角度出发,把上面两种情况整合到一起:

 

P(y|x)=ŷ y⋅(1−ŷ )1−y

 

不懂极大似然估计也没关系。我们可以这么来看:

当真实样本标签 y = 0 时,上面式子第一项就为 1,概率等式转化为:

 

P(y=0|x)=1−ŷ 

 

当真实样本标签 y = 1 时,上面式子第二项就为 1,概率等式转化为:

 

P(y=1|x)=ŷ 

 

两种情况下概率表达式跟之前的完全一致,只不过我们把两种情况整合在一起了。

重点看一下整合之后的概率表达式,我们希望的是概率 P(y|x) 越大越好。首先,我们对 P(y|x) 引入 log 函数,因为 log 运算并不会影响函数本身的单调性。则有:

 

log P(y|x)=log(ŷ y⋅(1−ŷ )1−y)=ylog ŷ +(1−y)log(1−ŷ )

 

我们希望 log P(y|x) 越大越好,反过来,只要 log P(y|x) 的负值 -log P(y|x) 越小就行了。那我们就可以引入损失函数,且令 Loss = -log P(y|x)即可。则得到损失函数为:

 

L=−[ylog ŷ +(1−y)log (1−ŷ )]

 

非常简单,我们已经推导出了单个样本的损失函数,是如果是计算 N 个样本的总的损失函数,只要将 N 个 Loss 叠加起来就可以了:

 

L=∑i=1Ny(i)log ŷ (i)+(1−y(i))log (1−ŷ (i))

 

这样,我们已经完整地实现了交叉熵损失函数的推导过程。

2. 交叉熵损失函数的直观理解

可能会有读者说,我已经知道了交叉熵损失函数的推导过程。但是能不能从更直观的角度去理解这个表达式呢?而不是仅仅记住这个公式。好问题!接下来,我们从图形的角度,分析交叉熵函数,加深大家的理解。

首先,还是写出单个样本的交叉熵损失函数:

 

L=−[ylog ŷ +(1−y)log (1−ŷ )]

 

我们知道,当 y = 1 时:

 

L=−log ŷ 

 

这时候,L 与预测输出的关系如下图所示:

 


这里写图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值