损失函数(八)

1、损失函数目的

损失函数loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:

2、损失函数、代价函数、目标函数之间的关系

损失函数是代价函数的一部分,代价函数是目标函数的一种

3、常见的损失函数

回归常见的损失函数有:均方差(Mean Squared Error,MSE)平均绝对误差(Mean Absolute Error Loss,MAE)Huber Loss是一种将MSE与MAE结合起来,取两者优点的损失函数,也被称作Smooth Mean Absolute Error Loss 、分位数损失(Quantile Loss)损失函数。

分类常见的损失函数有:交叉熵损失(Cross Entropy Loss)合页损失(Hinge Loss)0/1损失函数指数损失对数损失/对数似然损失(Log-likelihood Loss)

4、回归常见的损失函数

4.1、 均方差损失(Mean Squared Error Loss)

 

均方差(Mean Squared Error,MSE)损失是机器学习、深度学习回归任务中最常用的一种损失函数,也称为 L2 Loss。其基本形式如下:

可以看到这个实际上就是均方差损失的形式。也就是说在模型输出与真实值的误差服从高斯分布的假设下,最小化均方差损失函数与极大似然估计本质上是一致的,因此在这个假设能被满足的场景中(比如回归),均方差损失是一个很好的损失函数选择;当这个假设没能被满足的场景中(比如分类),均方差损失不是一个好的选择

4.2、平均绝对误差损失(Mean Absolute Error Loss)

平均绝对误差(Mean Absolute Error Loss,MAE)是另一类常用的损失函数,也称为L1 Loss。其基本形式如下:

MAE与MSE的区别:

  • MSE比MAE能够更快收敛:当使用梯度下降算法时,MSE损失的梯度为,而MAE损失的梯度为正负1。所以。MSE的梯度会随着误差大小发生变化,而MAE的梯度一直保持为1,这不利于模型的训练
  • MAE对异常点更加鲁棒:从损失函数上看,MSE对误差平方化,使得异常点的误差过大;从两个损失函数的假设上看,MSE假设了误差服从高斯分布,MAE假设了误差服从拉普拉斯分布,拉普拉斯分布本身对于异常点更加鲁棒

4.3、Huber Loss

Huber Loss是一种将MSE与MAE结合起来,取两者优点的损失函数,也被称作Smooth Mean Absolute Error Loss 。其原理很简单,就是在误差接近0时使用MSE,误差较大时使用MAE,公式为:

在 内实际上就是MSE的损失,使损失函数可导并且梯度更加稳定;在区间内为MAE损失,降低了异常点的影响,使训练更加鲁棒

4.4、 分位数损失(Quantile Loss)

分位数回归Quantile Regression是一类在实际应用中非常有用的回归算法,通常的回归算法是拟合目标值的期望(MSE)或者中位数(MAE),而分位数回归可以通过给定不同的分位点,拟合目标值的不同分位数。

式中的r为分位数,这个损失函数是一个分段的函数,当r>0.5时,低估()的损失要比高估的损失更大;反之,当r<0.5 时,高估的损失要比低估的损失更大,分位数损失实现了分别用不同的系数控制高估和低估的损失,进而实现分位数回归。特别地,当r=0.5时,分位数损失退化为MAE损失,从这里可以看出 MAE 损失实际上是分位数损失的一个特例—中位数回归

5、分类常见损失函数

5.1、0-1损失函数(zero-one loss)

5.2、 log对数损失函数

 

5.3、 指数损失函数(exponential loss)

5.4、hinge损失函数

支持向量机Support Vector Machine (SVM)模型的损失函数本质上就是Hinge Loss + L2正则化。

5.5、交叉熵损失函数 (Cross-entropy loss function)

5.5.1、二分问题的交叉熵损失

5.5.2、多分类问题的交叉熵损失函数

 

5.5.3、交叉熵损失的优缺点

 

6、交叉熵函数最大似然函数的联系和区别

区别:交叉熵函数使用来描述模型预测值和真实值的差距大小,越大代表越不相近;似然函数的本质就是衡量在某个参数下,整体的估计和真实的情况一样的概率,越大代表越相近。

联系:交叉熵函数可以由最大似然函数在伯努利分布的条件下推导出来,或者说最小化交叉熵函数的本质就是对数似然函数的最大化

 

参考文章

https://zhuanlan.zhihu.com/p/58883095(损失函数简单介绍,简单说明了常见的损失函数和相关优缺点)

https://zhuanlan.zhihu.com/p/97698386(挺详细的损失函数介绍,并阐明了损失函数背后所依赖的数学原理)

https://www.jianshu.com/p/43318a3dc715(KL散度详细原理介绍)

https://www.cnblogs.com/guoyaohua/p/9217206.html(书中损失函数计算)

 

  • 27
    点赞
  • 297
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值