损失函数

最新推荐文章于 2024-07-11 09:02:01 发布

lgy54321

最新推荐文章于 2024-07-11 09:02:01 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习面试机器学习算法 NLP

本文链接：https://blog.csdn.net/lgy54321/article/details/94728615

版权

本文详细介绍了多种损失函数，包括平方损失函数（最小二乘法）、均方误差及其与Sigmoid激活函数的结合，讨论了学习率缓慢的问题。接着讲解了交叉熵损失，包括其在逻辑回归和Sigmoid激活函数中的应用，以及如何解决梯度消失问题。还提到了指数损失函数（Adaboost）和Hinge损失函数（SVM）。最后，文章探讨了防止梯度爆炸的Smooth L1损失函数，并总结了Keras和TensorFlow中的常见成本函数。

摘要由CSDN通过智能技术生成

文章目录

一、平方损失函数（最小二乘法, Ordinary Least Squares ）
均方误差
- ESM均方误差+Sigmoid激活函数：输出层神经元学习率缓慢
- - Sigmoid激活函数：
  - ESM均方误差+Sigmoid激活函数
二.交叉熵损失
三、指数损失函数（Adaboost）
四、Hinge损失函数（SVM）
五、Smooth L1损失
- 1、梯度爆炸：
- 2、Smooth L1损失：
六、Keras / TensorFlow 中常用 Cost Function 总结

损失函数（loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数分为经验风险损失函数和结构风险损失函数，经验风险损失函数反映的是预测结果和实际结果之间的差别，结构风险损失函数则是经验风险损失函数加上正则项(L0、L1（Lasso）、L2（Ridge）)。
损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：在这里插入图片描述

一、平方损失函数（最小二乘法, Ordinary Least Squares ）

最小二乘法是线性回归的一种，最小二乘法（OLS）将问题转化成了一个凸优化问题。在线性回归中，它假设样本和噪声都服从高斯分布（为什么假设成高斯分布呢？其实这里隐藏了一个小知识点，就是中心极限定理，可以参考【central limit theorem】），最后通过极大似然估计（MLE）可以推导出最小二乘式子。最小二乘的基本原则是：最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。换言之，OLS是基于距离的，而这个距离就是我们用的最多的欧几里得距离。为什么它会选择使用欧式距离作为误差度量呢（即Mean squared error， MSE），主要有以下几个原因：

简单，计算方便；
欧氏距离是一种很好的相似性度量标准
在不同的表示域变换后特征性质不变。
平方损失（Square loss）的标准形式如下：

当样本个数为n时，此时的损失函数变为：

Y-f(X)表示的是残差，整个式子表示的是残差的平方和，而我们的目的就是最小化这个目标函数值（注：该式子未加入正则项），也就是最小化残差的平方和（residual sum of squares，RSS）。