均方差损失函数和交叉熵损失函数是比较常用的损失函数
分类中常用交叉熵?
MSE
均方误差损失也是一种比较常见的损失函数,其定义为:
Cross Entropy Loss Function
二分类
在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为P和 1-P ,此时表达式为:
其中:
yi—— 表示样本i的label,正类为 1,负类为0
pi—— 表示样本i预测为正类的概率
多分类
多分类的情况实际上就是对二分类的扩展:
其中:
M——类别的数量
yic——符号函数(0或者1),如果样本 i的真实类别等于C取1 ,否则取0
pic——观测样本 i属于类别C的预测概率
计算流程
MSE
交叉熵
使用交叉熵的原因
交叉熵
结论:
在用梯度下降法做参数更新的时候,模型学习的速度取决于两个值:一、学习率;二、偏导值。其中,学习率是我们需要设置的超参数,所以我们重点关注偏导值。从上面的式子中,我们发现,偏导值的大小取决于x 和 sigmod值与y的差 ,我们重点关注后者,后者的大小值反映了我们模型的错误程度,该值越大,说明模型效果越差,但是该值越大同时也会使得偏导值越大,从而模型学习速度更快。所以,使用逻辑函数得到概率,并结合交叉熵当损失函数时,在模型效果差的时候学习速度比较快,在模型效果好的时候学习速度变慢。
MSE
交叉损失函数的由来
利用相对熵来比较两个分布的差异性,所以可以用来比较预测和真实值的差异性,上公式中的P代表着真实值,q代表着预测值
其中P的熵是一个定值 要想预测与真实差异小 相对熵需要越小 所以交叉熵需要越小 推出利用交叉熵来代表模型的损失