深度学习第八章自学笔记——深度模型中的优化

最新推荐文章于 2022-05-18 09:39:23 发布

但愿长醉不愿醒

最新推荐文章于 2022-05-18 09:39:23 发布

阅读量2.2k

点赞数 1

分类专栏：深度学习文章标签：深度学习优化算法神经网络

本文链接：https://blog.csdn.net/qq_33004293/article/details/78228530

版权

本文介绍了深度学习中的优化问题，包括经验风险最小化、代理损失函数和批量/小批量优化算法。探讨了神经网络优化面临的挑战，如病态、局部极小值、鞍点、悬崖和长期依赖。同时，详细阐述了随机梯度下降、动量法、自适应学习率算法（如Adam）以及二阶近似方法，如牛顿法、共轭梯度和拟牛顿法。最后，提出了批标准化、坐标下降法等优化策略。

摘要由CSDN通过智能技术生成

一、学习与纯优化的区别：
在机器学习问题中，为了优化某性能度量P，一般通过降低代价函数J(θ)来间接提高P；但纯优化是最小化目标J本身。
（1）经验风险最小化
“经验”是指在最小化训练误差时计算误差是用的训练集数据。
经验风险最小化容易导致过拟合，在deeplearing中很少使用。
（2）代理损失函数
是指损失函数很难优化求解时，将其进行一定的转化，用代理损失函数代替。
为了防止过拟合，通常会设置一定的收敛条件，让损失函数提前终止，因此训练停止时损失函数可能还有较大的导数，但纯优化终止时导数很小。
（3）批量/小批量（随机）算法
批量（batch）梯度算法：是指使用整个训练集的优化算法
小批量（mini-batch）随机梯度算法：指用训练集的一部分进行优化的算法。。。。在使用小批量梯度算法时随机抽取数据很重要。

二、神经网络优化中的挑战
（1）病态
是指随机梯度下降会卡在某个点，此时即使很小的更新步长也会增加代价函数。。
此问题在数值优化、凸优化中容易出现，牛顿法是解决该问题的方法之一。
（2）局部极小值
a.在凸优化问题中，它的底部有可能是一个平坦的区域，而不是单一的全局最小点，该区域的任何一个点都是可行解。
b.在非凸函数中，例如神经网络，可能会存在多个局部极小值。。
神经网络具有权重空间对称性等问题导致的不可辨认性，所以很多局部极小值可能有相同的代

最低0.47元/天解锁文章

但愿长醉不愿醒

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习第八章自学笔记——深度模型中的优化

一、学习与纯优化的区别：在机器学习问题中，为了优化某性能度量P，一般通过降低代价函数J(θ)来间接提高P；但纯优化是最小化目标J本身。（1）经验风险最小化“经验”是指在最小化训练误差时计算误差是用的训练集数据。经验风险最小化容易导致过拟合，在deeplearing中很少使用。（2）代理损失函数是指损失函数很难优化求解时，将其进行一定的转化，用代理损失函数代替。为了防止过
复制链接

扫一扫

专栏目录