对于损失函数,像用平方损失函数 L(Y, f(X)) = (Y - f(X))^2或者绝对值损失函数都十分直观,但是对数损失函数 L(Y, P(Y|X)) = -log P(Y|X)是如何来度量损失的呢?
在李航《统计学习方法第二版》11页中提到了一个模型分类方法:概率模型与非概率模型。平方损失和绝对值损失是对非概率模型而言的。如果是非概率模型,模型的输出大多数是实值,可以通过差值累积的方式作为损失函数(比如平方损失),但是对于概率模型,如果模型是条件概率分布,只能通过最大化样本出现的概率(最大似然的思想)来最小化损失。
(1)有一类概率型的目标函数,例如逻辑回归来解决二分类问题,假设其目标函数为p(x),可以简单理解为样本x归属到某一类别的概率。
(2)根据最大似然估计的理论,优化目标是使得P(X)=p(x1)(1-p(x2))p(x3)...最大化(这里假设x1和x3是正例,x2是负例,由于目标函数是求正例的概率,所以1-p(x)自然就是负例的概率)。
(3)乘法表达式求极值比较麻烦,所以最好想办法转化成加法表达式。最自然的想法是两边取对数,把等式右边转化为加法表达式。由于对数单调增,那么求P(X)的最大值的问题,可以转化为求logP(X) 的最大值的问题。
(4)求logP(X)的最大值,其实就是求-logP(X)的最小值。这个-logP(X)其实就是所谓的log loss了。
P(Y/X)表示当前模型下样本X得到Y的概率,一定意义上也是样本和目标值的接近程度。用到损失函数上,取个反!这个概率越大,样本和目标值越接近,损失越小,反之亦然!