第四章,优化网络
本课程将讲述人工神经网络和很多神经网络级联形成的深度网络的基本原理,和基于神经网络的各种算法和编程实例。本章概述讲述了网络的优化算法,包括选择合适的优化器和损失函数。
一动量法优化器
病态曲线
如果把原始的 SGD 想象成一个纸团在重力作用向下滚动,由 于质量小受到山壁弹力的干扰大,导致来回震荡;或者在鞍点 处因为质量小速度很快减为 0,导致无法离开这块平地。
动量方法相当于把纸团换成了铁球;不容易受到外力的干扰, 轨迹更加稳定;同时因为在鞍点处因为惯性的作用,更有可能 离开平地。
二自适应梯度
Adaptive Gradient
:
自适应梯度
参数自适应变化:具有较大偏导的参数相应有一个较大的学习
率,而具有小偏导的参数则对应一个较小的学习率 。具体来说,每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根。
AdaGrad
问题:
学习率是单调递减的,训练后期学习率过小会导致训练困难, 甚至提前结束 需要设置一个全局的初始学习率
Adam
算法:
Adam
在
RMSProp
方法的基础上更进一步: 除了加入历史梯度平方的指数衰减平均(𝑟)外, 还保留了历史梯度的指数衰减平均(𝑠),相当于动量。 Adam 行为就像一个带有摩擦力的小球,在误差面上倾向于平坦的极小值。
总结:
第五章,卷积神经网络
本课程将讲述人工神经网络和很多神经网络级联形成的深度网络的基本原理,和基于神经网络的各种算法和编程实例。本章概述讲述了卷积神经网络,包括卷积网络的搭建,优势和意义。
一深度学习平台
Pytorch:
二卷积神经网络
进化史
基本概念
网络结构:
三常用数据集
总结:
二阶算法
自适度算法