机器学习代价函数，损失函数理解

最新推荐文章于 2024-02-01 14:54:15 发布

Chris_34

最新推荐文章于 2024-02-01 14:54:15 发布

阅读量551

点赞数

分类专栏：机器学习课程笔记文章标签：代价函数机器学习损失函数

本文链接：https://blog.csdn.net/weixin_43199584/article/details/97632382

版权

机器学习课程笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

机器学习常见的代价函数

代价函数也被称为平方误差函数，有时也被称为平方误差代价函数，之所以要出误差的平方和，是因为误差平方代价函数对于大多数问题，特别是回归问题，都是一个合理的选择。
（1）二次代价函数（quadratic cost）：
$\frac{1}{2n}\sum_x\Vert y(x)-a^L(x)\Vert^2$
其中， $J$ 表示代价函数， $x$ 表示样本， $y$ 表示实际值， $a$ 表示输出值， $n$ 表示样本的总数。使用一个样本为例简单说明，此时二次代价函数为：
$\frac{(y-a)^2}{2}$
假如使用梯度下降法（Gradient descent）来调整权值参数的大小，权值 $w$ 和偏置 $b$ 的梯度推导如下：
$\frac{\partial J}{\partial b}=(a-y)\sigma'(z)$
其中， $z$ 表示神经元的输入， $\sigma$ 表示激活函数。权值 $w$ 和偏置 $b$ 的梯度跟激活函数的梯度成正比，激活函数的梯度越大，权值 $w$ 和偏置 $b$ 的大小调整得越快，训练收敛得就越快。

（2）交叉熵代价函数（cross-entropy）：
$-\frac{1}{n}\sum_x[y\ln a + (1-y)\ln{(1-a)}]$
其中， $J$ 表示代价函数， $x$ 表示样本， $y$ 表示实际值， $a$ 表示输出值， $n$ 表示样本的总数。
权值 $w$ 和偏置 $b$ 的梯度推导如下：
$\frac{\partial J}{\partial w_j}=\frac{1}{n}\sum_{x}x_j(\sigma{(z)}-y)\;， \frac{\partial J}{\partial b}=\frac{1}{n}\sum_{x}(\sigma{(z)}-y)$
当误差越大时，梯度就越大，权值 $w$ 和偏置 $b$ 调整就越快，训练的速度也就越快。
二次代价函数适合输出神经元是线性的情况，交叉熵代价函数适合输出神经元是S型函数的情况。

（3）对数似然代价函数（log-likelihood cost）：
对数似然函数常用来作为softmax回归的代价函数。深度学习中普遍的做法是将softmax作为最后一层，此时常用的代价函数是对数似然代价函数。
对数似然代价函数与softmax的组合和交叉熵与sigmoid函数的组合非常相似。对数似然代价函数在二分类时可以化简为交叉熵代价函数的形式。
在tensorflow中：
与sigmoid搭配使用的交叉熵函数：tf.nn.sigmoid_cross_entropy_with_logits()。
与softmax搭配使用的交叉熵函数：tf.nn.softmax_cross_entropy_with_logits()。
在pytorch中：
与sigmoid搭配使用的交叉熵函数：torch.nn.BCEWithLogitsLoss()。
与softmax搭配使用的交叉熵函数：torch.nn.CrossEntropyLoss()。
### 用交叉熵代替二次代价函数

（1）为什么不用二次方代价函数
由上一节可知，权值 $w$ 和偏置 $b$ 的偏导数为 $\frac{\partial J}{\partial w}=(a-y)\sigma'(z)x$ ， $\frac{\partial J}{\partial b}=(a-y)\sigma'(z)$ ，偏导数受激活函数的导数影响，sigmoid函数导数在输出接近0和1时非常小，会导致一些实例在刚开始训练时学习得非常慢。

（2）为什么要用交叉熵
交叉熵函数权值 $w$ 和偏置 $b$ 的梯度推导为：
$\frac{\partial J}{\partial w_j}=\frac{1}{n}\sum_{x}x_j(\sigma{(z)}-y)\;， \frac{\partial J}{\partial b}=\frac{1}{n}\sum_{x}(\sigma{(z)}-y)$
由以上公式可知，权重学习的速度受到 $\sigma{(z)}-y$ 影响，更大的误差，就有更快的学习速度，避免了二次代价函数方程中因 $\sigma'{(z)}$ 导致的学习缓慢的情况。

2. 损失函数

2.1 什么是损失函数

损失函数（Loss Function）又叫做误差函数，用来衡量算法的运行情况，估量模型的预测值与真实值的不一致程度，是一个非负实值函数，通常使用$
L(Y, f(x))$来表示。损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。

2.2 常见的损失函数

机器学习通过对算法中的目标函数进行不断求解优化，得到最终想要的结果。分类和回归问题中，通常使用损失函数或代价函数作为目标函数。
损失函数用来评价预测值和真实值不一样的程度。通常损失函数越好，模型的性能也越好。
损失函数可分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是在经验风险损失函数上加上正则项。
下面介绍常用的损失函数：

（1）0-1损失函数
如果预测值和目标值相等，值为0，如果不相等，值为1。
$\begin{cases} 1,& Y\ne f(x)\\ 0,& Y = f(x) \end{cases}$
一般的在实际使用中，相等的条件过于严格，可适当放宽条件：
$\begin{cases} 1,& |Y-f(x)|\geqslant T\\ 0,& |Y-f(x)|< T \end{cases}$
（2）绝对值损失函数
和0-1损失函数相似，绝对值损失函数表示为：
$L (Y, f (x)) = ∣ Y - f (x) ∣ $
（3）平方损失函数
$\sum_N{(Y-f(x))}^2$
这点可从最小二乘法和欧几里得距离角度理解。最小二乘法的原理是，最优拟合曲线应该使所有点到回归直线的距离和最小。

（4）对数损失函数
$L(Y, P(Y|X)) = -\log{P(Y|X)}$
常见的逻辑回归使用的就是对数损失函数，有很多人认为逻辑回归的损失函数是平方损失，其实不然。逻辑回归它假设样本服从伯努利分布（0-1分布），进而求得满足该分布的似然函数，接着取对数求极值等。逻辑回归推导出的经验风险函数是最小化负的似然函数，从损失函数的角度看，就是对数损失函数。

（6）指数损失函数
指数损失函数的标准形式为：
$\exp(-Yf(x))$
例如AdaBoost就是以指数损失函数为损失函数。

（7）Hinge损失函数
Hinge损失函数的标准形式如下：
$L(y) = \max{(0, 1-ty)}$
统一的形式：
$L(Y, f(x)) = \max{(0, Yf(x))}$
其中y是预测值，范围为(-1,1)，t为目标值，其为-1或1。

在线性支持向量机中，最优化问题可等价于
$\underset{\min}{w,b}\sum_{i=1}^N (1-y_i(wx_i+b))+\lambda\Vert w\Vert ^2$
上式相似于下式
$\frac{1}{m}\sum_{i=1}^{N}l(wx_i+by_i) + \Vert w\Vert ^2$
其中 $l(wx_i+by_i)$ 是Hinge损失函数， $\Vert w\Vert ^2$ 可看做为正则化项。