神经网络深度学习（一）损失函数

置顶 china1000

已于 2022-09-03 14:52:07 修改

阅读量4.1k

点赞数 2

分类专栏：神经网络深度学习文章标签：神经网络机器学习算法

于 2022-09-03 14:49:58 首次发布

本文链接：https://blog.csdn.net/china1000/article/details/126676534

版权

神经网络同时被 2 个专栏收录

7 篇文章 3 订阅

订阅专栏

深度学习

7 篇文章 0 订阅

订阅专栏

1 分类问题可以使用MSE(均方误差)作为损失函数吗

2 softmax loss vs 交叉熵 loss

一、什么是损失函数

什么是损失函数：简单的理解就是每一个样本经过模型后会得到一个预测值,然后得到的预测值和真实值的差值就成为损失。

为什么引入损失函数：通过对比计算网络的前向传播结果和真实结果，计算出来的用于衡量两者之间差距的函数值。

二、经验风险与结构风险

经验风险
机器学习模型关于训练数据集的平均损失称为经验风险。

结构风险

结构风险是在经验风险的基础上加上表示模型复杂度的正则项（罚项）。

三、分类损失函数

$Loss(h_w(X_i,yi))$	代表算法	说明
1.Hing-Loss $max(1 - h_w(x_i)y_i,0)p$	标准SVM(p=1) (Differentiable) Squared Hingeless SVM (p=2)	当用于标准SVM时，损失函数表示线性分隔符与其中任一类中的最近点之间的边距长度。只有在p = 2时处处可导。
2.Log-Loss $log(1+e^{-h_w(x_i)y_i})$	Logistic回归	机器学习中最受欢迎的损失功能之一，因为它能输出概率
3.Exponential Loss $e^{-h_w(x_i)y_i}$	Adaboost	错误预测的丢失随着值的增加呈指数增长 −hw(xi)yi−hw(xi)yi
4.Zero-One Loss $\delta(sign(h_w(xi)) \neq yi)$	实际分类损失	不连续，不容易优化
5 Cross Entropy Loss	交叉熵是用来度量两个概率分布的差异性的，用来衡量模型学习到的分布和真实分布的差异。

四、回归损失函数及其特点

1.Squared Loss

$(h(x_i)-y_i)^2$

也被称为均分误差| 二次损失 | L2损失 | 普通最小二乘法(OLS) | Mean Square Error, Quadratic Loss, L2 Loss

优点：处处可导

缺点：对异常值敏感

2.Absolut Loss

$|h(x_i)-y_i|$

优点：对噪音不敏感

缺点：0点不可导

3 huber loss

平滑绝对损失

优点：结合了平方损失和绝对损失；一阶可导

当损失很小时采用平方损失（梯度小不会错过最小值），当损失很大时采用绝对损失（梯度大快速收敛）

4.fair loss

5.Log-Cosh Loss

优点：与Huber损失类似，但处处二阶可导

缺点：对于误差很大的预测，其梯度和hessian是恒定的

6.Quantile Loss（分位数损失）

优点：基于Quantile Loss的回归模型可以提供合理的预测区间，即使是对于具有非常数方差或非正态分布的残差aaaa

五、正则化

目的：防止过拟合、提高模型泛化能力。通过在经验风险项后加上表示模型复杂度的正则化项或惩罚项，达到选择经验风险和模型复杂度都较小的模型目的。

L1 防止过拟合、提高模型泛化能力。	输出稀疏，原因： 1) 施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。 2) 图形 3)在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0,
L2	输出不稀疏；计算起来更方便
dropout	输入的特征都存在被随机清除的可能，所以该神经元不会再特别依赖于任何一个输入特征，也就是不会给任何一个输入特征设置太大的权重。通过传播过程，dropout 将产生和 L2 正则化相同的收缩权重的效果。
early stop