反向传播和梯度消失

最新推荐文章于 2024-09-12 10:51:22 发布

青青大肥羊

最新推荐文章于 2024-09-12 10:51:22 发布

阅读量1.9k

点赞数

分类专栏： deep learning

本文链接：https://blog.csdn.net/qq_31425127/article/details/80569883

版权

本文探讨了经验风险最小化在机器学习中的应用，介绍了常见的损失函数，如0-1损失、平方损失、对数损失和Hinge损失。重点讨论了深度学习训练中的梯度消失问题，分析了sigmoid激活函数导致梯度消失的原因，并提出了Relu、Maxout激活函数以及Batch Normalization作为解决方案。同时，文章也提到了过拟合现象及其预防措施，如正则化和Dropout策略。

摘要由CSDN通过智能技术生成

注：最近想把以前写的笔记拿出来整理一下，因为是直接从蚂蚁笔记复制粘贴过来的，所以格式上可能有些不规范，将就着看看吧，懒得再改了……

一、经验风险最小化

统计机器学习算法由模型、策略和算法三个要素构成，当选择了一种算法模型后，下一步就要考虑选择什么样的策略或准则来最优化模型

损失函数是机器学习中用于衡量模型一次预测结果好坏的目标函数

常用的损失函数有：
1、0-1损失函数：非凸函数，只关心预测值和真实值是否相同，没有关系他们之间的距离或误差，有很多不足
2、平方损失函数：线性回归模型常用的最优化目标函数，L(y,f(x))=(y-f(x))^2
3、对数损失函数：分类模型常用的最优化目标函数，L(y,f(x))=-lnp(y|x)
4、Hinge损失函数：最大间隔目标函数，是SVM采用的最优化目标函数，L(y,f(x))=max(0,1-y*f(x))
对于任意给定的损失函数，可以求得平均意义下的期望损失函数，期望损失函数也称为期望风险函数
Rexp(f)=E(L(y,f(x)))=∫L(y,f(x))P(x,y)dxdy

机器学习的目标就是使期望风险函数最小，但由于联合分布函数P(x,y)是不知道的，因此在实际应用中，通常的优化目标是经验风险最小化。
例如，给定训练数据集：T={(x1,y1),(x2,y2),(x3,y3),……(xn,yn)}
模型f(x)关于训练数据集T的经验风险函数为：Remp(f)=1/N*∑L(yi,f(xi))
由大数定理可