【吴恩达深度学习】测试2-2总结：优化算法

最新推荐文章于 2024-05-08 21:33:39 发布

Queenie7v

最新推荐文章于 2024-05-08 21:33:39 发布

阅读量176

点赞数

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/Queenie7v/article/details/105719194

版权

4 篇文章 0 订阅

订阅专栏

$V_t=\beta V_{t-1}+(1-\beta)\theta_t$ （平均过去 $\frac{1}{1-\beta}$ 天的数据）
$\beta$ 越大，曲线越平稳，也会稍微右移。
优点：占用极少内存，只用一行代码，不断更新 $V$ 值。
偏差修正： $V_t^{corrected}=\frac{V_t}{1-\beta^t}$
早期需要好的估测来修正，随着 $t$ 的增大， $\beta^t$ 逐渐趋于 $0$ ，修正也不再起作用。

（Gradient descent with momentum）动量梯度下降法

基本思路：计算梯度的指数加权平均值，更新权重，加速梯度下降。
上下摆动正负抵消，摆动变小，横轴平均值还很大，因此运动更快。
$V_{d\theta}=\beta V_{d\theta}=+(1-\beta)d\theta$
$\theta=\theta-\alpha V_{d\theta}$
$\beta=0.9$ (一般固定，平均前十次迭代)
$\beta$ 越大，上下摆动越小。
不用偏差修正，10次迭代后已经过了初始阶段，基本无偏差。
想象成小球从坡上往下滚。小球的动量越来越大，过最低点后仍然会往前冲。

(root mean square propagation) 均方根反向传播

$S_{d\theta}=\beta S_{d\theta}=+(1-\beta)d^2\theta$

$\theta=\theta-\alpha\frac{d\theta}{\sqrt{S_{d\theta}}+\epsilon}$

$\epsilon=10^{-8}$ (使稳定，不为0)
纵轴斜率大，因此除以一个大的数，会减缓纵轴摆动；
横轴斜率小，因此除以一个小的数，会加速梯度下降。

Adaptive Moment Estimation 自适应矩估计

1 epoch:遍历一次整个数据集
1 iteration:遍历batchsize的数据，进行一次梯度下降
学习开始可以承受较大的步伐，但开始收敛时，要减小步伐，因此需要学习率衰减。

$\alpha=\frac{1}{1+decay-rate*epoch-num}\alpha_0$

$\alpha=0.95^{epoch-num}\alpha_0$

关注