交叉熵损失函数的推导过程
以二分类为例,假设我们使用的激活函数为sigmoid,即将输出规范化在 [ 0 , 1 ] [0,1] [0,1]之间, p ( y ∣ x ) p(y|x) p(y∣x)表示在给定 x x x的基础上输出为 y y y的概率。我们设: 当 y = 1 时 : p ( y ∣ x ) = y ^ 当 y=1时:p(y|x)=\hat{y} 当y=1时:p(y∣x)=y^
则:
当 y = 0 时 : p ( y ∣ x ) = 1 − y ^ 当 y=0时:p(y|x)=1 - \hat{y} 当y=0时:p(y∣x)=1−y^
把上述两个表达式合并成一个,则:
p ( y ∣ x ) = y ^ y ( 1 − y ^ ) 1 − y p(y|x) = \hat{y}^y(1-\hat{y})^{1-y} p(y∣x)=