交叉熵函数
1. 二分类
二分类问题的输出 一般是通过一个非线性函数(eg: softmax, tanh)将输出转换为0~1之前的概率值。预测值为1的概率:,预测值为0的概率:
把上面的两种预测情况整合,可以得到:
对上式等式两边区log,得到:
我们希望概率值越大越好,即值越大越好,而在最优化问题中,我们需要将其转换为最小化问题。所以,我们希望最小化。
由此,我们可以将损失函数设置为:
上面这个损失函数是对于单个样本来讲的,如果对于数据集中的所有样本来说,那么损失函数为:
2. 多分类
多分类其实是二分类的扩展,损失函数为:
其中,m表示分类的个数。