机器学习中常见的损失函数

最新推荐文章于 2025-04-24 11:59:36 发布

置顶一只鸟的天空

最新推荐文章于 2025-04-24 11:59:36 发布

阅读量6.4w

点赞数 21

分类专栏：数据挖掘与机器学习文章标签：损失函数机器学习 Loss-Func 损失项正则项

本文链接：https://blog.csdn.net/heyongluoyao8/article/details/52462400

版权

数据挖掘与机器学习专栏收录该内容

26 篇文章

订阅专栏

机器学习中常见的损失函数

一般来说，我们在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数（Loss Function）作为其目标函数，又称为代价函数(Cost Function)。
损失函数是用来评价模型的预测值 $\hat{Y}=f(X)$ 与真实值 $Y$ 的不一致程度，它是一个非负实值函数。通常使用 $L(Y, f(x))$ 来表示，损失函数越小，模型的性能就越好。
设总有 $N$ 个样本的样本集为 $(X,Y)={(x_i,y_i)}$ ， $y_i, i \in [1,N]$ 为样本 $i$ 的真实值， $\hat{y_i}=f(x_i), i \in [1,N]$ 为样本 $i$ 的预测值， $f$ 为分类或者回归函数。
那么总的损失函数为：

L = \sum i = 1 N ℓ (y i, y i^)

$L=\sum_{i=1}^{N}\ell(y_i,\hat{y_i})$

常见的损失函数 $\ell(y_i,\hat{y_i})$ 有以下几种：

Zero-one Loss

Zero-one Loss即0-1损失，它是一种较为简单的损失函数，如果预测值与目标值不相等，那么为1，否则为0，即：

ℓ(yi,yi^)={1,0,yi≠yi^yi=yi^(1) (1) ℓ ( y i , y i ^ ) = { 1 , y i ≠ y i ^ 0 , y i = y i ^

$\begin{eqnarray}\ell(y_i,\hat{y_i})= \begin{cases} 1, &y_i \ne \hat{y_i}\cr 0, &y_i = \hat{y_i} \end{cases} \end{eqnarray}$
可以看出上述的定义太过严格，如果真实值为1，预测值为0.999，那么预测应该正确，但是上述定义显然是判定为预测错误，那么可以进行改进为Perceptron Loss。

Perceptron Loss

Perceptron Loss即为感知损失。即：

ℓ(yi,yi^)={1,0,|yi−yi^|>t|yi−yi^|≤t(2) (2) ℓ ( y i , y i ^ ) = { 1 , | y i − y i ^ | > t 0 , | y i − y i ^ | ≤ t

$\begin{eqnarray}\ell(y_i,\hat{y_i})= \begin{cases} 1, &|y_i - \hat{y_i}| \gt t\cr 0, &|y_i - \hat{y_i}| \le t\end{cases} \end{eqnarray}$
其中

t t $t$ 是一个超参数阈值，如在PLA(Perceptron Learning Algorithm,感知机算法)中取

t = 0.5

$t=0.5$ 。

Hinge Loss

Hinge损失可以用来解决间隔最大化问题，如在SVM中解决几何间隔最大化问题，其定义如下：

ℓ(yi,yi^)=max{0,1−yi⋅yi^} ℓ ( y i , y i ^ ) = m a x { 0 , 1 − y i ⋅ y i ^ }

$\ell(y_i,\hat{y_i})=max\{0,1-y_i \cdot \hat{y_i}\}$

y i \in {- 1, + 1}

$y_i \in \{-1,+1\}$
更多请参见： Hinge-loss。

Log Loss

在使用似然函数最大化时，其形式是进行连乘，但是为了便于处理，一般会套上log，这样便可以将连乘转化为求和，由于log函数是单调递增函数，因此不会改变优化结果。因此log类型的损失函数也是一种常见的损失函数，如在LR(Logistic Regression, 逻辑回归)中使用交叉熵(Cross Entropy)作为其损失函数。即：

ℓ (y i, y i^) = - y i \cdot l o g y i^- (1 - y i) \cdot l o g (1 - y i^)

$\ell(y_i,\hat{y_i})=-y_i \cdot log \hat{y_i} -(1-y_i) \cdot log (1-\hat{y_i})$

y i \in {0, 1}

$y_i \in \{0,1\}$
规定

0 \cdot l o g \cdot = 0

$0 \cdot log \cdot = 0$

Square Loss

Square Loss即平方误差，常用于回归中。即：

ℓ (y i, y i^) = (y i - y i^) 2

$\ell(y_i,\hat{y_i})=(y_i - \hat{y_i})^2$

y i, y i^\in ℜ

$y_i, \hat{y_i} \in \Re$

Absolute Loss

Absolute Loss即绝对值误差，常用于回归中。即：

ℓ (y i, y i^) = | y i - y i^|

$\ell(y_i,\hat{y_i})=|y_i - \hat{y_i}|$

y i, y i^\in ℜ

$y_i, \hat{y_i} \in \Re$

Exponential Loss

Exponential Loss为指数误差，常用于boosting算法中，如AdaBoost。即：

ℓ (y i, y i^) = e x p (- y i \cdot y i^)

$\ell(y_i,\hat{y_i})=exp(-y_i \cdot \hat{y_i})$

y i \in {- 1, 1}

$y_i \in \{-1,1\}$

正则

一般来说，对分类或者回归模型进行评估时，需要使得模型在训练数据上使得损失函数值最小，即使得经验风险函数最小化，但是如果只考虑经验风险(Empirical risk)，容易过拟合(详细参见防止过拟合的一些方法)，因此还需要考虑模型的泛化能力，一般常用的方法便是在目标函数中加上正则项，由损失项(Loss term)加上正则项(Regularization term)构成结构风险(Structural risk)，那么损失函数变为：