《深度学习》——阅读笔记

本文是《深度学习》的读书笔记,涵盖了深度学习中的正则化策略,如提前终止,并探讨了不同优化算法,如AdaGrad、RMSProp和Adam。此外,还介绍了卷积神经网络(CNN)的卷积、池化操作及其作为无限强先验的含义,并讨论了实践中如何选择正确的优化算法和超参数调整方法。
摘要由CSDN通过智能技术生成

第七章——深度学习中的正则化

7.8:提前终止

  • 什么时候需要“提前终止”?
    提前终止需要验证集。在训练中若出现下图7.3中,训练误差随着时间的推移逐渐降低但验证集的误差再次上升时,在验证集误差最小时就很可能得到了一个很好的模型。此时提前终止能够减少训练时间在这里插入图片描述
  • 启示:分类不需要提前终止,分割实验需要设置提前终止。
  • 如何实现提前终止?书本上有伪代码,但是自己是实现有一定难度,还是去网上百度快。
  1. 如何选择提前终止的标准:https://www.datalearner.com/blog/1051537860479157
  2. 代码实现:https://discuss.pytorch.org/t/early-stopping-in-pytorch/18800

第八章——深度模型中的优化

8.5 自适应学习率算法

损失通常高度敏感于参数空间中的某些方向,而不敏感于其他。
如果我们相信方向敏感度在某种程度是轴对齐的,那么每个参数设置不同的学习率,在整个学习过程中自动适应这些学习率是有道理的。

8.5.1 AdaGrad

  • 原理
    独立地适应所有模型参数的学习率。具有损失最大偏导地参数有一个快速下降地学习率,具有小偏导的参数再学习率上有相对较小的下降。
  • 优点
    在参数空间中更为平缓的倾斜方向会取得更大的进步
  • 缺点
    从训练开始时积累梯度平方会导致有效学习率过早和过量的减小。

8.5.2 RMSProp

  • 原理
    使用指数衰减平均以丢弃遥远过去的历史,使其能够在找到凸碗状结构后快速收敛,它就像一个初始化于该碗状结构的AdaGrad算法实例。
  • 优点
    规避了AdaGrad的缺点。

8.5.3 Adam

  • 原理
    看不懂
  • <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值