机器学习中的常用损失函数、正则化方法

M.冯小白

于 2024-01-25 23:48:23 发布

阅读量1.2k

点赞数 17

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_74092748/article/details/135854936

版权

人工智能实验室第四次培训（1月23号）

1、机器学习中的损失函数
2、机器学习中的正则化

1、机器学习中的损失函数

1.1损失函数定义

监督学习本质: 给定训练样本( $x_i,y_i$ )，有 $x$ $\to$ $y$ 的映射关系，使得给定一个 $x$ ，能够得到尽量接近真实 $y$ 的输出 $\hat{y}$
损失函数: 用来衡量模型输出的 $\hat{y}$ 与真实的 $y$ 之间的差距，给模型的优化指明方向。

1.2损失函数(Loss Function)和代价函数(Cost Function)的区别

Loss Function：通常是针对单个训练样本而言，给定一个模型输出 $\hat{y}$ 和一个真实 $y$ ，损失函数输出一个实值损失
Cost Function：通常是针对整个训练集的总损失

1.3均方差损失Mean Squared Error Loss

MSE损失是机器学习、深度学习回归任务中最常用的一种损失函数，也称 L2 Loss，其基本形式如下
$J_{MSE}=\frac{1}{N}\sum_{i=1}^N(y_i-\hat{y_i})^2$
该损失函数的最小值为 0（当预测等于真实值时），最大值为无穷大。
回归场景下，MSE损失是一个很好的损失函数选择；分类场景下，MSE损失不是一个好的选择。

1.4平均绝对误差损失Mean Absolute Error Loss

MAE损失是另一类常用的损失函数，也称为 L1 Loss。其基本形式如下
$J_{MAE}=\frac{1}{N}\sum_{i=1}^N|y_i-\hat{y_i}|$
MAE 损失的最小值为 0（当预测等于真实值时），最大值为无穷大

1.5MSE与MAE的区别

主要区别： MSE 损失相比 MAE 通常可以更快地收敛，这也是 MSE 更为流行的原因。但 MAE 损失对于异常值更加健壮，即更加不易受到异常值影响。

1.6Huber Loss

MSE 损失收敛快但容易受异常值影响，MAE 对异常值更加健壮但是收敛慢，Huber Loss 则是一种将 MSE 与 MAE 结合起来，取两者优点的损失函数，也被称作 Smooth Mean Absolute Error Loss 。
其原理就是在误差接近 0 时使用 MSE，误差较大时使用 MAE，公式为
在这里插入图片描述

1.7交叉熵损失 Cross Entropy Loss

上面的几种损失函数都是适用于回归问题损失函数，对于分类问题，最常用的损失函数是交叉熵损失函数
对于二分类其交叉熵损失函数公式为
$J_{CE}=-\sum_{i=1}^N(y_ilog(\hat{y_i})+(1-y_i)log(1-\hat{y_i}))$
下图是对二分类的交叉熵损失函数的可视化，蓝线是目标值为 0 时输出不同输出的损失，黄线是目标值为 1 时的损失。
在这里插入图片描述
可以看到越接近目标值损失越小，随着误差变差，损失呈指数增长。

2、机器学习中的正则化

2.1正则化定义

在损失函数上加上某些规则（限制），缩小解空间，从而减少出现过拟合的可能性
过拟合定义： 当一个模型在训练集上准确率高，但在测试集上准确率低，被称作过拟合
在这里插入图片描述
欠拟合定义： 当模型由于没有正确学习训练集中的模式而无法正确地泛化到新数据时，就会发生欠拟合，训练集准确率低，测试集准确率也低

2.2L1 和 L2 正则化

L1 和 L2 正则化是最常用的正则化方法。L1 正则化向目标函数添加正则化项，以减少参数的绝对值总和；而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和

2.3Dropout正则化

dropout 是一种计算方便但功能强大的正则化方法，基本步骤是在每一次的迭代中，随机删除一部分节点，只训练剩下的节点。每次迭代都会随机删除，每次迭代删除的节点也都不一样，相当于每次迭代训练的都是不一样的网络，通过这样的方式降低节点之间的关联性以及模型的复杂度，从而达到正则化的效果。
在这里插入图片描述
直观理解Dropout,dropout之前(左)与dropout之后(右)
Dropout缺点在于，需要将训练集分为不同子集输入每一次的迭代，这就需要较大的训练集，所以在训练集较小的情况下，dropout的效果可能并不好。