损失函数（八）

最新推荐文章于 2024-06-10 20:48:53 发布

frostjsy

最新推荐文章于 2024-06-10 20:48:53 发布

阅读量9.2k

点赞数 27

分类专栏：机器学习深度学习文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/u013069552/article/details/113804323

版权

深度学习同时被 2 个专栏收录

20 篇文章 1 订阅

订阅专栏

机器学习

15 篇文章 7 订阅

订阅专栏

1、损失函数目的

损失函数loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：

2、损失函数、代价函数、目标函数之间的关系

损失函数是代价函数的一部分，代价函数是目标函数的一种

3、常见的损失函数

回归常见的损失函数有：均方差（Mean Squared Error，MSE）、平均绝对误差（Mean Absolute Error Loss，MAE）、Huber Loss是一种将MSE与MAE结合起来，取两者优点的损失函数，也被称作Smooth Mean Absolute Error Loss 、分位数损失（Quantile Loss）损失函数。

分类常见的损失函数有：交叉熵损失（Cross Entropy Loss）、合页损失（Hinge Loss）、0/1损失函数、指数损失、对数损失/对数似然损失（Log-likelihood Loss）

4、回归常见的损失函数

4.1、均方差损失（Mean Squared Error Loss）

均方差（Mean Squared Error，MSE）损失是机器学习、深度学习回归任务中最常用的一种损失函数，也称为 L2 Loss。其基本形式如下：

可以看到这个实际上就是均方差损失的形式。也就是说在模型输出与真实值的误差服从高斯分布的假设下，最小化均方差损失函数与极大似然估计本质上是一致的，因此在这个假设能被满足的场景中（比如回归），均方差损失是一个很好的损失函数选择；当这个假设没能被满足的场景中（比如分类），均方差损失不是一个好的选择

4.2、平均绝对误差损失（Mean Absolute Error Loss）

平均绝对误差（Mean Absolute Error Loss，MAE）是另一类常用的损失函数，也称为L1 Loss。其基本形式如下：

MAE与MSE的区别：

MSE比MAE能够更快收敛：当使用梯度下降算法时，MSE损失的梯度为，而MAE损失的梯度为正负1。所以。MSE的梯度会随着误差大小发生变化，而MAE的梯度一直保持为1，这不利于模型的训练
MAE对异常点更加鲁棒：从损失函数上看，MSE对误差平方化，使得异常点的误差过大；从两个损失函数的假设上看，MSE假设了误差服从高斯分布，MAE假设了误差服从拉普拉斯分布，拉普拉斯分布本身对于异常点更加鲁棒

4.3、Huber Loss

Huber Loss是一种将MSE与MAE结合起来，取两者优点的损失函数，也被称作Smooth Mean Absolute Error Loss 。其原理很简单，就是在误差接近0时使用MSE，误差较大时使用MAE，公式为：

在内实际上就是MSE的损失，使损失函数可导并且梯度更加稳定；在和区间内为MAE损失，降低了异常点的影响，使训练更加鲁棒

4.4、分位数损失（Quantile Loss）

分位数回归Quantile Regression是一类在实际应用中非常有用的回归算法，通常的回归算法是拟合目标值的期望（MSE）或者中位数（MAE），而分位数回归可以通过给定不同的分位点，拟合目标值的不同分位数。

式中的r为分位数，这个损失函数是一个分段的函数，当r>0.5时，低估()的损失要比高估的损失更大；反之，当r<0.5 时，高估的损失要比低估的损失更大，分位数损失实现了分别用不同的系数控制高估和低估的损失，进而实现分位数回归。特别地，当r=0.5时，分位数损失退化为MAE损失，从这里可以看出 MAE 损失实际上是分位数损失的一个特例—中位数回归

5、分类常见损失函数

5.1、0-1损失函数(zero-one loss)

5.2、 log对数损失函数

5.3、指数损失函数（exponential loss）

5.4、hinge损失函数

支持向量机Support Vector Machine (SVM)模型的损失函数本质上就是Hinge Loss + L2正则化。

5.5、交叉熵损失函数 (Cross-entropy loss function)

5.5.1、二分问题的交叉熵损失

5.5.2、多分类问题的交叉熵损失函数

5.5.3、交叉熵损失的优缺点

6、交叉熵函数与最大似然函数的联系和区别

区别：交叉熵函数使用来描述模型预测值和真实值的差距大小，越大代表越不相近；似然函数的本质就是衡量在某个参数下，整体的估计和真实的情况一样的概率，越大代表越相近。

联系：交叉熵函数可以由最大似然函数在伯努利分布的条件下推导出来，或者说最小化交叉熵函数的本质就是对数似然函数的最大化。

参考文章

https://zhuanlan.zhihu.com/p/58883095（损失函数简单介绍，简单说明了常见的损失函数和相关优缺点）

https://zhuanlan.zhihu.com/p/97698386（挺详细的损失函数介绍，并阐明了损失函数背后所依赖的数学原理）

https://www.jianshu.com/p/43318a3dc715（KL散度详细原理介绍）

https://www.cnblogs.com/guoyaohua/p/9217206.html（书中损失函数计算）

frostjsy

关注

27
点赞
踩
297

收藏

觉得还不错? 一键收藏
0
评论
损失函数（八）

1、损失函数目的损失函数loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：2、损失函数、代价函数、目标函数之间的关系损失函数是代价函数的一部分，代价函数是目标函数的一种3、常见的损失函数回归常见的损失函数有：均方差（Mean S
复制链接

扫一扫