二进制交叉熵是交叉熵的一种特殊情况,专门处理二分类问题。
二进制交叉熵公式:
假定样本预测值f(x)=a,当样本标签y=1,L=lnf(x),当y=0,L=ln(1-f(x))。
Keras.losses.binary_crossentropy实现源码如下:
主要注意的地方有以下几处:
(1)keras自带的binary_crossentropy()函数对最后一个维度(last axis)求解mean。
(2)后端tf函数binary_crossentropy()对预测值做了截断clip处理,限制取值在[epsilon, 1-epsilon]。
(3)函数的输入y_true和y_pred是categorical编码(非categorical其实也可以)。
(4)这里的a(也就是f(x))是sigmoid函数的输出。
第2点好理解,但第1点让人有点费解。
其实原因在于:当target和ouput是categorical编码时,-(target*log(output) + (1-target)*log(1-output))实际上对正样本标签y=1数据重复计算了一次。
理解如下:
假定:y_true [0,1], y_pred [0.2, 0.8]
那么: -0.5([0,1]×log([0.2, 0.8]) + [1,0]×log([0.8, 0.2])),样本误差被计算2次,存放最后一个维度中,因此tf计算后返回给keras时需要对最后一个维度做mean处理。
更多学习笔记可以关注我的微信公众号「kelly学技术」,欢迎交流。
-- over --