【时间】2019.01.09
【题目】(转)交叉熵损失函数的推导过程与直观理解
【转载链接】简单的交叉熵损失函数,你真的懂了吗?
一、交叉熵损失函数的推导过程
说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:
我们已经对这个交叉熵函数非常熟悉,大多数情况下都是直接拿来使用就好。但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?也许很多朋友还不是很清楚!没关系,接下来我将尽可能以最通俗的语言回答上面这几个问题。
【推导过程】
我们知道,在二分类问题模型:例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等,真实样本的标签为 [0,1],分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大。
Sigmoid 函数的表达式和图形如下所示: