交叉熵损失是常见的损失函数之一,交叉熵衡量的是数据标签的真实分布与预测的概率分布之间的差异程度,值越小,差异越小,模型预测就越准确:
其中,p,q分别表示数据标签的真实分布和预测出的分布,也就是p(yi|xi)表示样本xi的真实分布。具体一点,样本xi是属于某个类别ck,那么,p(yi=ci|xi)=1,其他都为0.
类比,q(y^i|xi)表示样本xi在各个类别上的概率分布,此时,预测的概率处于【0,1】之间,当然y^i跑遍所有类别后,和为1.
如果,xi的真实标签确定为ck,那么上式可以简化为:
这样,本质上就变成了,最大化预测xi为ck的概率。
二分类模型:
yi属于{0,1},那么样本xi属于类别1的概率为:q(yi=1|xi),样本xi属于0的概率为:1-q(yi=1|xi)
二元交叉熵损失: