损失函数和风险函数

损失函数度量模型预测一次的好坏,即模型预测一次其预测值与真实值之间的差别。

风险函数度量模型平均意义上预测能力的好坏,即模型预测n次预测值与真实值差别的平均。

记f(X)为模型的输出预测值,Y为对应输入的真实值,则损失函数为f(x)和Y的非负实值函数,记为L(Y,f(x))。

常用的损失函数有如下几种:

1.0-1损失函数

0-1损失函数通过比较真实值与预测值是否相等进行度量模型的好坏,若预测值与真实值相等则L=0,不相等则L=1,其为一种“是与非”的思想,而并不考虑预测值与真实值之间的差距。

2.平方损失函数

平方损失函数度量的是预测值与真实值之间的距离,用[Y- f(x)]^2进行计算。

3.绝对损失函数

绝对损失函数度量的同样是预测值与真实值之间的距离,用| Y-f(X) |进行计算。

4.对数损失函数

L(Y,f(x))=-log(P(Y|X))

可以看到,其输入是标签Y和预测值f(X),即对于极大似然来说,其样本集变为label集而非X集,

首先,对数损失函数运用了最大似然估计的思想,极大似然估计是建立在极大似然原理上的一个统计方法,通俗来讲,即概率较大的事件较为可能发生,例如,现有两个箱子,箱子A有红球1个,白球99个,箱子B有红球99个,白球1个,则现随机选取一个箱子并抽取一个小球,发现是红色,这是我们更容易倾向于相信红球是从箱子B取出的,因为该概率较红球是从箱子A中取出的概率更大。这就是最大似然原理的思想,也可以通俗的理解为最为可能思想。

极大似然估计是建立在这样的思想上:已经样本满足某种概率分布,而参数未知,对于参数的选取为,若某个参数能使这个样本出现的概率最大,则选取该参数作为估计值。

因此,对于对数损失函数,其中,P(Y|X)表示当前模型在样本为X的情况下得到预测值为Y的概率,其在一定程度上表示预测值与真实值的接近程度。要使损失函数最小,则使得在样本为X的情况下得到预测值为Y的概率越大,扩展到风险函数,则使得在样本为X1,X2,X3,...,Xn的情况下得到预测值为Y1,Y2,Y3,...,Yn的概率最大,由于在计算当中,多个概率的乘法最终会得到一个非常小的值,从而可能造成下溢 underflow,因此一般会进一步对之前的似然函数取一个对数,将连续乘法转化为加法,因此利用log函数进行变换,从而实现积到和的形式转变,进一步考虑到目前情况为当概率最大时损失最小,为使最大似然与最小损失相对应,则在前面加负号(-),使得当所得值最小时,代表损失最小。

损失函数越小则模型就越好,由于模型输入和输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以以上损失函数的期望为:

R_{exp}(f)=E_{p}[L(Y,f(x))]=\int_{XxY} L(y,f(X))P(x,y)dxdy=-\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{M}P(x,y)log(p(Y|X))

而模型f(x)关于训练数据集的平均损失即经验风险或经验损失为:

R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))

根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,因此在联合分布未知的情况下,可以用经验风险估计期望风险。由于现实中训练样本数目有限,甚至很小,用经验风险估计期望风险常常不理想,因此需要对经验风险做一定的矫正,一般用到的两种策略为:经验风险最小化结构风险最小化

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值