损失函数度量模型预测一次的好坏,即模型预测一次其预测值与真实值之间的差别。
风险函数度量模型平均意义上预测能力的好坏,即模型预测n次预测值与真实值差别的平均。
记f(X)为模型的输出预测值,Y为对应输入的真实值,则损失函数为f(x)和Y的非负实值函数,记为L(Y,f(x))。
常用的损失函数有如下几种:
1.0-1损失函数
0-1损失函数通过比较真实值与预测值是否相等进行度量模型的好坏,若预测值与真实值相等则L=0,不相等则L=1,其为一种“是与非”的思想,而并不考虑预测值与真实值之间的差距。
2.平方损失函数
平方损失函数度量的是预测值与真实值之间的距离,用进行计算。
3.绝对损失函数
绝对损失函数度量的同样是预测值与真实值之间的距离,用进行计算。
4.对数损失函数
可以看到,其输入是标签Y和预测值f(X),即对于极大似然来说,其样本集变为label集而非X集,
首先,对数损失函数运用了最大似然估计的思想,极大似然估计是建立在极大似然原理上的一个统计方法,通俗来讲,即概率较大的事件较为可能发生,例如,现有两个箱子,箱子A有红球1个,白球99个,箱子B有红球99个,白球1个,则现随机选取一个箱子并抽取一个小球,发现是红色,这是我们更容易倾向于相信红球是从箱子B取出的,因为该概率较红球是从箱子A中取出的概率更大。这就是最大似然原理的思想,也可以通俗的理解为最为可能思想。
极大似然估计是建立在这样的思想上:已经样本满足某种概率分布,而参数未知,对于参数的选取为,若某个参数能使这个样本出现的概率最大,则选取该参数作为估计值。
因此,对于对数损失函数,其中,表示当前模型在样本为X的情况下得到预测值为Y的概率,其在一定程度上表示预测值与真实值的接近程度。要使损失函数最小,则使得在样本为X的情况下得到预测值为Y的概率越大,扩展到风险函数,则使得在样本为X1,X2,X3,...,Xn的情况下得到预测值为Y1,Y2,Y3,...,Yn的概率最大,由于在计算当中,多个概率的乘法最终会得到一个非常小的值,从而可能造成下溢 underflow,因此一般会进一步对之前的似然函数取一个对数,将连续乘法转化为加法,因此利用
函数进行变换,从而实现积到和的形式转变,进一步考虑到目前情况为当概率最大时损失最小,为使最大似然与最小损失相对应,则在前面加负号(-),使得当所得值最小时,代表损失最小。
损失函数越小则模型就越好,由于模型输入和输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以以上损失函数的期望为:
而模型f(x)关于训练数据集的平均损失即经验风险或经验损失为:
根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,因此在联合分布未知的情况下,可以用经验风险估计期望风险。由于现实中训练样本数目有限,甚至很小,用经验风险估计期望风险常常不理想,因此需要对经验风险做一定的矫正,一般用到的两种策略为:经验风险最小化和结构风险最小化。