深度学习中的损失函数

最新推荐文章于 2024-04-21 19:30:41 发布

AoDeLuo

最新推荐文章于 2024-04-21 19:30:41 发布

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/qq_30150579/article/details/129753042

版权

深度学习专栏收录该内容

26 篇文章 4 订阅

订阅专栏

文章详细介绍了机器学习中常见的损失函数，包括均方差损失（MSE）、平均绝对误差损失（MAE）、HuberLoss、分位数损失、交叉熵损失（二分类和多分类）、合页损失（HingeLoss）以及0/1损失函数。这些损失函数在不同场景下有不同的应用，如回归任务中的MSE和MAE，分类任务中的交叉熵损失，以及SVM中的HingeLoss。

摘要由CSDN通过智能技术生成

文章目录

一. Loss函数

一. Loss函数

机器学习中的监督学习本质上是给定一系列训练样本 $x_i,y_i)$ ，尝试学习 $x - y$ 的映射关系，使得给定一个 $x$ ，即便这个 $x$ 不在训练样本中，也能够输出 $\hat{y}$ ，尽量与真实的 $y$ 接近。损失函数是用来估量模型的输出 $\hat{y}$ 与真实值 $y$ 之间的差距，给模型的优化指引方向。模型的结构风险包括了经验风险和结构风险，损失函数是经验风险函数的核心部分：

$\hat{\theta}=\arg \min _{\theta} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i} ; \theta\right)+\lambda \Phi(\theta)\right)$

式中，前面的均值函数为经验风险， $L\left(y_{i},f\left(x_{i};\theta\right)\right)$ 为损失函数，后面的项为结构风险， $\Phi(\theta)$ 衡量模型的复杂度.
首先区分损失函数、代价函数和目标函数之间的区别和联系：

损失函数（Loss Function）通常是针对单个训练样本而言，给定一个模型输出 $\hat{y}$ 和一个真实值 $y$ ，损失函数输出一个实值损失 $L=f(y_i,\hat{y})$ ，比如说：
- 线性回归中的均方差损失： $L\left(y_{i}, f\left(x_{i} ; \theta\right)=\left(f\left(x_{i} ; \theta\right)-y_{i}\right)^{2}\right.$
- SVM中的Hinge损失： $L\left(y_{i}, f\left(x_{i} ; \theta\right)=\max \left(0,1-f\left(x_{i} ; \theta\right) y_{i}\right)\right.$
- 精确度定义中的0/1损失： $L\left(y_{i}, f\left(x_{i} ; \theta\right)=1\right) \Longleftrightarrow f\left(x_{i} ; \theta\right) \neq y_{i}$
代价函数（Cost Function）通常是针对整个训练集（或者在使用mini-batch gradient descent时的一个mini-batch）的总损失 $J=\sum_{i=1}^{N} f\left(y_{i}, \hat{y}_{i}\right)$ ，比如说：
- 均方误差： $E(\theta)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; \theta\right)-y_{i}\right)^{2}$
- SVM的代价函数： $M(\theta)=\|\theta\|^{2}+C \sum_{i=1}^{N} \xi_{i}$
目标函数（Objective Function）通常是一个更通用的术语，表示任意希望被优化的函数，用于机器学习领域和非机器学习领域（比如运筹优化），比如说，最大似然估计（MLE）中的似然函数就是目标函数

一句话总结三者的关系就是：A loss function is a part of a cost function which is a type of an objective function

1. 均方差损失（Mean Squared Error Loss）

均方差（Mean Squared Error，MSE）损失是机器学习、深度学习回归任务中最常用的一种损失函数，也称为 L2 Loss。其基本形式如下：

$J_{M S E}=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$

背后的假设：
实际上在一定的假设下，我们可以使用最大化似然得到均方差损失的形式。假设模型预测与真实值之间的误差服从标准高斯分布 $(\mu=0, \sigma=1)$ ，则给定一个 $x_i$ ，模型就输出真实值 $y_i$ 的概率为：

$p\left(y_{i} \mid x_{i}\right)=\frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{\left(y_{i}-\hat{y}_{i}\right)^{2}}{2}\right)$

进一步我们假设数据集中N个样本点之间相互独立，则给定所有 $x$ 输出所有真实值 $y$ 的概率，即似然（Likelihood）为所有 $p\left(y_{i} \mid x_{i}\right)$ 的累乘：

$y)=\prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{\left(y_{i}-\hat{y}_{i}\right)^{2}}{2}\right)$

通常为了计算方便，我们通常最大化对数似然（Log-Likelihood）：

$y)=\log (L(x, y))=-\frac{N}{2} \log 2 \pi-\frac{1}{2} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$

去掉与 $\hat{y}_{i}$ 无关的第一项，然后转化为最小化负对数似然（Negative Log-Likelihood）：

$y)=\frac{1}{2} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$

可以看到这个实际上就是均方差损失的形式。也就是说在模型输出与真实值的误差服从高斯分布的假设下，最小化均方差损失函数与极大似然估计本质上是一致的，因此在这个假设能被满足的场景中（比如回归），均方差损失是一个很好的损失函数选择；当这个假设没能被满足的场景中（比如分类），均方差损失不是一个好的选择.

2. 平均绝对误差损失（Mean Absolute Error Loss）

平均绝对误差（Mean Absolute Error Loss，MAE）是另一类常用的损失函数，也称为L1 Loss。其基本形式如下：

$J_{M A E}=\frac{1}{N} \sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right|$

背后的假设：
同样的我们可以在一定的假设下通过最大化似然得到 MAE 损失的形式，假设模型预测与真实值之间的误差服从拉普拉斯分布 Laplace distribution $(\mu=0, b=1)$ ，则给定一个 $x_i$ 模型输出真实值 $y_i$ 的概率为：

$p\left(y_{i} \mid x_{i}\right)=\frac{1}{2} \exp \left(-\left|y_{i}-\hat{y}_{i}\right|\right)$

与上面推导 MSE 时类似，我们可以得到的负对数似然（Negative Log-Likelihood）实际上就是MAE 损失的形式：

$y)=\prod_{i=1}^{N} \frac{1}{2} \exp \left(-\left|y_{i}-\hat{y}_{i}\right|\right)$

$y)=-\frac{N}{2}-\sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right|$

$$
N L L(x, y)=\sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right|

MAE与MSE的区别：

MSE比MAE能够更快收敛：当使用梯度下降算法时，MSE损失的梯度为 $-\hat{y}_{i}$ ，而MAE损失的梯度为 $\pm 1$ 。所以。MSE的梯度会随着误差大小发生变化，而MAE的梯度一直保持为1，这不利于模型的训练
MAE对异常点更加鲁棒：从损失函数上看，MSE对误差平方化，使得异常点的误差过大；从两个损失函数的假设上看，MSE假设了误差服从高斯分布，MAE假设了误差服从拉普拉斯分布，拉普拉斯分布本身对于异常点更加鲁棒

在这里插入图片描述

3.（Huber Loss）

Huber Loss是一种将MSE与MAE结合起来，取两者优点的损失函数，也被称作Smooth Mean Absolute Error Loss。其原理很简单，就是在误差接近0时使用MSE，误差较大时使用MAE，公式为：

$J_{\text {huber }}=\frac{1}{N} \sum_{i=1}^{N} \mathbb{I}_{\left|y_{i}-\hat{y}_{i}\right| \leq \delta} \frac{\left(y_{i}-\hat{y}_{i}\right)^{2}}{2}+\mathbb{I}_{\left|y_{i}-\hat{y}_{i}\right|>\delta}\left(\delta\left|y_{i}-\hat{y}_{i}\right|-\frac{1}{2} \delta^{2}\right)$

上式中， $\delta$ 是Huber Loss的一个超参数， $\delta$ 的值是MSE与MAE两个损失连接的位置。下图为 $\delta=1.0$ 时的Huber Loss：
在这里插入图片描述

可以看到在 $[-\delta, \delta]$ 内实际上就是MSE的损失，使损失函数可导并且梯度更加稳定；在 $(-\infty, \delta)$ 和 $(\delta, \infty)$ 区间内为MAE损失，降低了异常点的影响，使训练更加鲁棒.

4. 分位数损失（Quantile Loss）

分位数回归Quantile Regression是一类在实际应用中非常有用的回归算法，通常的回归算法是拟合目标值的期望（MSE）或者中位数（MAE），而分位数回归可以通过给定不同的分位点，拟合目标值的不同分位数。例如我们可以分别拟合出多个分位点，得到一个置信区间，如下图所示：

在这里插入图片描述

分位数回归是通过使用分位数损失Quantile Loss来实现这一点的，分位数损失形式如下：

$J_{\text {quant }}=\frac{1}{N} \sum_{i=1}^{N} \mathbb{I}_{\hat{y}_{i} \geq y_{i}}(1-r)\left|y_{i}-\hat{y}_{i}\right|+\mathbb{I}_{\hat{y}_{i}<y_{i}} r\left|y_{i}-\hat{y}_{i}\right|$

式中的r为分位数，这个损失函数是一个分段的函数，将 $\hat{y}_{i} \geq y_{i}$ （高估）和 $\hat{y}_{i}<y_{i}$ （低估）时，低估的损失要比高估的损失更大；反之，当 $r < 0.5$ 时，高估的损失要比低估的损失更大，分位数损失实现了分别用不同的系数控制高估和低估的损失，进而实现分位数回归。特别地，当 $r = 0.5$ 时，分位数损失退化为MAE损失，从这里可以看出 MAE 损失实际上是分位数损失的一个特例—中位数回归.

$J_{\text {quant }}^{r=0.5}=\frac{1}{N} \sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right|$

5. 交叉熵损失（Cross Entropy Loss）

对于分类问题，最常用的损失函数是交叉熵损失函数（Cross Entropy Loss）

5.1 二分类：

考虑二分类，在二分类中我们通常使用Sigmoid函数将模型的输出压缩到(0,1)区间内， $\hat{y}_{i} \in(0,1)$ ，用来代表给定输入 $x_i$ ，模型判断为正类的概率。由于只有正负两类，因此同时也得到了负类的概率：

$p\left(y_{i}=1 \mid x_{i}\right)=\hat{y}_{i}$

$p\left(y_{i}=0 \mid x_{i}\right)=1-\hat{y}_{i}$

将两条式子合并成一条：

$p\left(y_{i} \mid x_{i}\right)=\left(\hat{y}_{i}\right)^{y_{i}}\left(1-\hat{y}_{i}\right)^{1-y_{i}}$

假设数据点之间独立同分布，则似然可以表示为：

$y)=\prod_{i=1}^{N}\left(\hat{y}_{i}\right)^{y_{i}}\left(1-\hat{y}_{i}\right)^{1-y_{i}}$

对似然取对数，然后加负号变成最小化负对数似然，即为交叉熵损失函数的形式：

$y)=J_{C E}=-\sum_{i=1}^{N} y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right)$

下图是对二分类的交叉熵损失函数的可视化：
在这里插入图片描述

蓝线是目标值为0时输出不同输出的损失，黄线是目标值为1时的损失。可以看到约接近目标值损失越小，随着误差变差，损失呈指数增长.

5.2 多分类：

在多分类的任务中，交叉熵损失函数的推导思路和二分类是一样的，变化的地方是真实值[公式]是一个One-hot向量，同时模型输出的压缩由原来的Sigmoid函数换成Softmax函数。Softmax函数将每个维度的输出范围都限定在(0,1)之间，同时所有维度的输出和为1，用于表示一个概率分布

$p\left(y_{i} \mid x_{i}\right)=\prod_{k=1}^{K}\left(\hat{y}_{i}^{k}\right)^{y_{i}^{k}}$

其中， $\in K$ 表示K个类别中的一类，同样的假设数据点之间独立同分布，可得到负对数似然为：

$y)=J_{C E}=-\sum_{i=1}^{N} \sum_{k=1}^{K} y_{i}^{k} \log \left(\hat{y}_{i}^{k}\right)$

由于 $y_i$ 是一个One-hot向量，除了目标类为1之外其他类别上的输出都为 0，因此上式也可以写为：

$J_{C E}=-\sum_{i=1}^{N} y_{i}^{c_{i}} \log \left(y_{i}^{\hat{c}_{i}}\right)$

其中， $c_i$ 是 $x_i$ 的目标类，通常这个应用于多分类的交叉熵损失函数也被称为Softmax Loss或者Categorical Cross Entropy Loss

5.3 Logistics loss和Cross Entropy Loss：

对于Logistics loss，我们说的是二分类问题， $\hat{y}$ 是一个数；对于Cross Entropy Loss，我们说的是多分类问题， $\hat{y}$ 是一个k维的向量。当k=2时，Logistics loss与Cross Entropy Loss一致.

5.4. 为什么用交叉熵损失：

分类中为什么不用均方差损失？上文在介绍均方差损失的时候讲到实际上均方差损失假设了误差服从高斯分布，在分类任务下这个假设没办法被满足，因此效果会很差。
为什么是交叉熵损失呢？
（1）一个角度是用最大似然来解释：也就是我们上面的推导
（2）另一个角度是用信息论来解释交叉熵损失：假设对于样本 $x_i$ 存在一个最优分布 $y_{i}^{\star}$ 真实地表明了这个样本属于各个类别的概率，那么我们希望模型的输出 $\hat{y}_{i}$ 尽可能地逼近这个最优分布，在信息论中，我们可以使用KL散度（Kullback–Leibler Divergence）来衡量两个分布的相似性。给定分布 $p$ 和分布 $q$ ，两者的 KL 散度公式如下：

$q)=\sum_{k=1}^{K} p \log (p)-\sum_{k=1}^{K} p \log (q)$

其中第一项为分布 $p$ 的信息熵，第二项为分布 $p$ 和分布 $q$ 的交叉熵。将最优分布 $y_{i}^{\star}$ 和输出分布 $\hat{y}_{i}$ 代入分布 $p$ 和分布 $q$ 得到：

$L\left(y_{i}^{\star}, \hat{y}_{i}\right)=\sum_{k=1}^{K} y_{i}^{\star} \log \left(y_{i}^{\star}\right)-\sum_{k=1}^{K} y_{i}^{\star} \log \left(\hat{y}_{i}\right)$

由于我们希望两个分布尽量相近，因此我们最小化KL散度。同时由于上式第一项信息熵仅与最优分布本身相关，因此我们在最小化的过程中可以忽略掉，变成最小化

$\sum_{k=1}^{K} y_{i}^{\star} \log \left(\hat{y}_{i}\right)$

我们并不知道最优分布 $y_{i}^{\star}$ ，但训练数据里面的目标值 $y_i$ 可以看做是 $y_{i}^{\star}$ 的一个近似分布：

$-\sum_{k=1}^{K} y_{i} \log \left(\hat{y}_{i}\right)$

这个是针对单个训练样本的损失函数，如果考虑整个数据集，则：

$J_{K L}=-\sum_{i=1}^{N} \sum_{k=1}^{K} y_{i}^{k} \log \left(\hat{y}_{i}^{k}\right)=-\sum_{i=1}^{N} y_{i}^{c_{i}} \log \left(y_{i}^{\hat{c}_{i}}\right)$

可以看到通过最小化交叉熵的角度推导出来的结果和使用最大化似然得到的结果是一致的
（3）最后一个角度为BP过程：当使用平方误差损失函数时，最后一层的误差为 $\delta^{(l)}=-\left(y-a^{(l)}\right) f^{\prime}\left(z^{(l)}\right)$ ，其中最后一项为 $f^{\prime}\left(z^{(l)}\right)$ ，为激活函数的导数。当激活函数为Sigmoid函数时，如果 $z^{(l)}$ 的值非常大，函数的梯度趋于饱和，即 $f^{\prime}\left(z^{(l)}\right)$ 的绝对值非常小，导致 $\delta^{(l)}$ 的取值也非常小，使得基于梯度的学习速度非常缓慢；
当使用交叉熵损失函数时，最后一层的误差为 $\delta^{(l)}=f\left(z_{k}^{(l)}\right)-1=a_{\tilde{k}}^{(l)}-1$ ，此时导数是线性的，因此不存在学习速度过慢的问题.
引入交叉熵损失函数目的是解决一些实例在刚开始训练时学习得非常慢的问题，其主要针对激活函数为Sigmod 函数，如果在输出神经元是S型神经元时，交叉熵一般都是更好的选择，交叉熵无法改善隐藏层中神经元发生的学习缓慢，交叉熵损失函数只对网络输出明显背离预期时发生的学习缓慢有改善效果，交叉熵损失函数并不能改善或避免神经元饱和，而是当输出层神经元发生饱和时，能够避免其学习缓慢的问题。

6. 合页损失（Hinge Loss）

合页损失（Hinge Loss）是另外一种二分类损失函数，适用于 maximum-margin 的分类，支持向量机Support Vector Machine (SVM)模型的损失函数本质上就是Hinge Loss + L2正则化。合页损失的公式如下：

$J_{h i n g e}=\sum_{i=1}^{N} \max \left(0,1-\operatorname{sgn}\left(y_{i}\right) \hat{y}_{i}\right)$

下图是 $y$ 为正类，即 $s g n (y) = 1$ 时，不同输出的合页损失示意图：

在这里插入图片描述

可以看到当 $y$ 为正类时，模型输出负值会有较大的惩罚，当模型输出为正值且在 $(0, 1)$ 区间时还会有一个较小的惩罚。即合页损失不仅惩罚预测错的，并且对于预测对了但是置信度不高的也会给一个惩罚，只有置信度高的才会有零损失。使用合页损失直觉上理解是要找到一个决策边界，使得所有数据点被这个边界正确地、高置信地被分类