机器学习中损失函数的总结

最新推荐文章于 2024-06-09 08:14:39 发布

slx_share

最新推荐文章于 2024-06-09 08:14:39 发布

阅读量1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/slx_share/article/details/83375257

版权

机器学习专栏收录该内容

43 篇文章 17 订阅

订阅专栏

统计机器学习的策略通常是最小化代价函数(目标函数)，因此代价函数的选取对学习效果影响很大。损失函数与代价函数是一回事，但有的书籍定义损失函数指单个样本的损失( $l$ ),而代价函数指损失函数之和或加上正则化项( $L$ )。本文用 $l$ 表示单个样本的损失， $L$ 表示所有样本的平均损失， $y^p$ 表示预测值 $f (x)$ 。

分类模型损失函数

分类模型的损失函数通常用 $yy^p$ 来表示。

Zero-One

0-1损失函数对每个错分类点施加相同的惩罚。表达式如下： $l(y_i, y_i^p)=\left\{ \begin{aligned} 0 \qquad y_iy_i^p\ge 0 \\ 1\qquad y_iy_i^p\lt 0\end{aligned} \right.$

Logarithmic

对数损失函数的形式是： $l(y_i, y_i^p)=-logP(y|x)$ 最小化对数损失函数与极大对数形式的似然函数是等价得。

Hinge

支持向量机采用的损失函数。表达式如下： $l(y_i, y_i^p)=max(0, 1-y_iy_i^p)$ 可见该损失函数使得 $y_iy_i^p$ 大于1的样本损失值为0，抛弃其在模型构建中的作用，即非支持向量对模型的构建不产生任何作用。

Exponential

指数损失是Adaboost中的损失函数，表达式如下： $l(y_i, y_i^p)=e^{-y_iy_i^p}$ 预测结果与真实值相差较大时，损失值过大，对局外点过于敏感。

Modified Huber

Huber损失函数在分类模型中的变种，结合了Hinge以及Logistic损失函数的优点。表达式如下： $l_{\delta}(y_i,y_i^p)=\left\{ \begin{aligned} max(0, 1-y_iy_i^p)^2 \qquad y_iy_i^p|\ge-1 \\ -4y_iy_i^p\qquad otherwise \end{aligned} \right.$ 可见在 $y_iy_i^p \ge 1$ 时产生稀疏解提高训练效率,对预测误差较大的样本( $y_iy_i^p \lt -1$ )，惩罚以线性增加，受局外点的影响较小。

回归模型损失函数

MSE

平方误差损失函数(mean square error,MSE )或称quadratic loss、L2损失函数，是最常用的损失函数。表达式如下： $L(y,y^p)=\frac{\sum_{i=1}^{n}{(y_i-y_i^p)^2}}{n}$
优点：曲线平滑，一阶二阶均可导，在极值点导数也不会有很大跃变
缺点：对于局外点，其值过大，导致模型会过分拟合局外点，性能降低

MAE

平均绝对误差损失函数(mean absolute error, MAE)，又称L1损失函数。表达式如下： $L(y,y^p)=\frac{\sum_{i=1}^{n}{|y_i-y_i^p|}}{n}$
优点：对局外点不像MSE那么敏感
缺点：在极值点梯度跃变(不可导)，靠近极值点时需要降低学习率

Huber

Huber损失函数可以看作MSE以及MAE的结合。表达式如下： $l_{\delta}(y_i,y_i^p)=\left\{ \begin{aligned} \frac12(y_i -y_i^p)^2 \qquad |y_i-y_i^p|\le\delta \\ \delta |y_i-y_i^p| - \frac 12\delta^2\qquad otherwise \end{aligned} \right.$
可见 $\delta$ 趋近于0则退化成MAE, 趋于无穷则退化成MSE。
优点：综合了MSE以及MAE的优点，即既对局外点不敏感，同时连续可导。
缺点：超参数 $\delta$ 不容易调节

Log-Cosh

对数双曲余弦损失函数是一种比MSE更加光滑的损失函数。表达式如下： $L(y,y^p)=\sum_{i=1}^{n}{log(cosh(y_i^p-y_i))}$
优点：拥有Huber损失函数的所有优点，且处处二阶可导
缺点：当预测值与真实值相差非常大时，一阶二阶导数接近于常数

Quantile

分位数损失函数通过分位数 $\gamma$ 对过拟合以及欠拟合施加不同的权重。 $\gamma>0.5$ 惩罚过拟合较多，反之惩罚欠拟合较多。 $L_{\gamma}(y, y^p)=\sum_{i=y_i<y_i^p}{(\gamma -1)|y_i-y_i^p|+\sum_{i=y_i\ge y_i^p}{\gamma|y_i-y_i^p|}}$

深度学习模型损失函数

深度学习模型通常用交叉熵(cross entropy)损失函数，可以很好地衡量真实分布与输出分布之间的差距。令真实分布为 $P (X)$ ，模型输出分布为 $Q (X)$ ，则交叉熵为 $Q)=-\sum_i{P(i)logQ(i)}$

参考资料

https://www.cnblogs.com/massquantity/p/8964029.html
https://www.afenxi.com/56326.html
https://en.wikipedia.org/wiki/Huber_loss
注：如有不当之处，请指正。

slx_share

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
机器学习中损失函数的总结

统计机器学习的策略通常是最小化代价函数(目标函数)，因此代价函数的选取对学习效果影响很大。损失函数与代价函数是一回事，但有的书籍定义损失函数指单个样本的损失(lll),而代价函数指损失函数之和或加上正则化项(LLL)。本文用lll表示单个样本的损失，LLL表示所有样本的平均损失，ypy^pyp表示预测值f(x)f(x)f(x)。分类模型损失函数分类模型的损失函数通常用yypyy^pyyp来表示...
复制链接

扫一扫

专栏目录