在kaggle比赛中,经常需要提交log loss,对数损失是经常用到的一个评价指标。其定义为给定概率分类器预测的真实
标签的负对数似然率。
每一个样本的对数损失就是在给定真实样本标签的条件下,分类器的负对数似然函数:
-log P(yt|yp) = -(yt log(yp) + (1 - yt) log(1 - yp))
当某个样本的真实标签y=1时,loss=-log(p),分类器的预测概率值为p=pr(y=1)的概率如果越大,越接近1,则损失越小;如果p=pr(y=1)的概率值越小,则分类损失越大。
在提交结果中,使用官方提供的测试集是没有标签的,提交基于测试集模型的预测值,属于每一类预测值的概率值,官方评价指标使用log loss,会返回一个负对数似然值作为评价的目标值。
举个例子:
两个类别,spam,ham是真实标签值,四个预测值,预测属于正确类别的概率值基本正确,所以返回的对数损失是0.21......,值比较小,说明预测还是可以的。