深度学习常用损失函数总览：基本形式、原理、特点

最新推荐文章于 2023-08-12 10:12:51 发布

BUAA～冬之恋

最新推荐文章于 2023-08-12 10:12:51 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/u013602059/article/details/107250695

版权

参考来源：https://mp.weixin.qq.com/s/AQQXO2XfDcE-PP1cD1j_Fw

机器学习中的监督学习本质上是给定一系列训练样本 $x_i,y_i)$ ，尝试学习 $x\to y$ 的映射关系，使得给定一个 $x$ ，即便这个 $x$ 不在训练样本中，也能够得到尽量接近真实 $y$ 的输出 $\hat{y}$ 。而损失函数（Loss Function）则是这个过程中关键的一个组成部分，用来衡量模型的输出 $\hat{y}$ 与真实的 $y$ 之间的差距，给模型的优化指明方向。

本文将介绍机器学习、深度学习中分类与回归常用的几种损失函数，包括均方差损失 Mean Squared Loss、平均绝对误差损失 Mean Absolute Error Loss、Huber Loss、分位数损失 Quantile Loss、交叉熵损失函数 Cross Entropy Loss、Hinge 损失 Hinge Loss。主要介绍各种损失函数的基本形式、原理、特点等方面。

1、引言

在正文开始之前，先说下关于 Loss Function、Cost Function 和 Objective Function 的区别和联系。在机器学习的语境下这三个术语经常被交叉使用。

损失函数 Loss Function 通常是针对单个训练样本而言，给定一个模型输出 $\hat{y}$ 和一个真实 $y$ ，损失函数输出一个实值损失 $L=f(y_i,\hat{y_i})$ 。
代价函数 Cost Function 通常是针对整个训练集（或者在使用 mini-batch gradient descent 时一个 mini-batch）的总损失 $J=\sum_{i=1}^Nf(y_i,\hat{y_i})$ 。
目标函数 Objective Function 是一个更通用的术语，表示任意希望被优化的函数，用于机器学习领域和非机器学习领域（比如运筹优化）

一句话总结三者的关系就是：A loss function is a part of a cost function which is a type of an objective function.

由于损失函数和代价函数只是在针对样本集上有区别，因此在本文中统一使用了损失函数这个术语，但下文的相关公式实际上采用的是代价函数 Cost Function 的形式，请读者自行留意。

2、均方差损失Mean Squared Error Loss

2.1、基本形式与原理

均方差 Mean Squared Error (MSE) 损失是机器学习、深度学习回归任务中最常用的一种损失函数，也称为 L2 Loss。其基本形式如下 $J_{MSE}=\frac{1}{N}\sum_{i=1}^N(y_i-\hat{y_i})^2$ 从直觉上理解均方差损失，这个损失函数的最小值为 0（当预测等于真实值时），最大值为无穷大。下图是对于真实值 $y = 0$ ，不同的预测值 $[- 1.5, 1.5]$ 的均方差损失的变化图。横轴是不同的预测值，纵轴是均方差损失，可以看到随着预测与真实值绝对误差 $|y-\hat{y}|$ 的增加，均方差损失呈二次方地增加。
在这里插入图片描述

2.2、背后的假设

实际上在一定的假设下，我们可以使用最大化似然得到均方差损失的形式。假设模型预测与真实值之间的误差服从标准高斯分布（ $\mu=0,\sigma=1$ ），则给定一个 $x_i$ 模型输出真实值 $y_i$ 的概率为 $p(y_i|x_i)=\frac{1}{\sqrt{2\pi}}exp(-\frac{(y_i-\hat{y_i})^2}{2})$ 进一步我们假设数据集中 $N$ 个样本点之间相互独立，则给定所有 $x$ 输出所有真实值 $y$ 的概率，即似然 Likelihood，为所有 $p(y_i|x_i)$ 的累乘 $L(x,y)=\prod_{i=1}^N \frac{1}{\sqrt{2\pi}}exp(-\frac{(y_i-\hat{y_i})^2}{2})$ 通常为了计算方便，我们通常最大化对数似然 Log-Likelihood $LL(x,y)=\log(L(x,y))=-\frac{N}{2}\log 2\pi-\frac{1}{2}\sum_{i=1}^N(y_i-\hat{y_i})^2$ 去掉与 $\hat{y_i}$

最低0.47元/天解锁文章

BUAA～冬之恋

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
深度学习常用损失函数总览：基本形式、原理、特点

参考来源：https://mp.weixin.qq.com/s/AQQXO2XfDcE-PP1cD1j_Fw机器学习中的监督学习本质上是给定一系列训练样本 (xi,yi)(x_i,y_i)(xi,yi) ，尝试学习 x→yx\to yx→y 的映射关系，使得给定一个xxx ，即便这个 xxx不在训练样本中，也能够得到尽量接近真实 yyy 的输出y^\hat{y}y^ 。而损失函数（Loss Function）则是这个过程中关键的一个组成部分，用来衡量模型的输出 y^\hat{y}y^ 与真实的
复制链接

扫一扫