Cousera - Deep Learning - 课程笔记 - Week 6

最新推荐文章于 2024-11-14 17:10:58 发布

支锦铭

最新推荐文章于 2024-11-14 17:10:58 发布

阅读量167

点赞数

分类专栏： Cousera-课程笔记文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/cary_leo/article/details/105722164

版权

141 篇文章 17 订阅

订阅专栏

2018年9月版本

Week 6

使用向量化算法，我们可以同时计算m个实例的相关数据
但是在m非常大的情况下，这一过程仍然会非常慢
对于梯度下降，在每一次迭代中，完整地处理一次数据将变得非常麻烦，整体达到最优变得不太实际
mini-batch，即对于整个巨大的数据集，将其拆分成更小的训练集，称之为小批量训练集
对每一个小集，记为 $X^{\{t\}}$ ，对应的y也进行类似处理
规定一个小集内含有 $m_x$ 个实例，那么一个小集 $X^{\{t\}}$ 的维数为 $n_x \times m_x$ ，对应 $Y^{\{t\}}$ 的维数为 $\times m_x$
相应的，对原始的GD算法是为一个大的batch上的GD操作（BGD）

针对每一组小集：
- 使用一组小集进行正向传播（注意输入是 $X^{\{t\}}$ ）
- 针对这个小集计算代价函数（注意 $m$ 现在是 $m_x$ ）
- 针对这个小集进行梯度下降操作
- 更新参数
遍历（epoch）：对训练集完成一次遍历
在原始GD中，一次epoch只能实现一次步进，但是对于MGD，则可以实现 $\frac{m}{m_x}$ 次步进
由于不同组数据之间可能有些许不同，MGD的代价函数整体随迭代次数增加会逐渐下降，但是中间可能会出现大量的噪声

若 $m_x = m$ ，MGD就是原始的BGD（数据量巨大，耗时长）
若 $m_x=1$ ，MGD就变成了SGD（Stochastic Gradient Descent，随机梯度下降）（失去了向量化加速的机会，且很难收敛）
因此，应当选择一个介于1和m之间的一个位置（耗时较短，同时能够很快地收敛，噪声较SGD小）
选择方式：
- 对于一个比较小（小于2000）的训练集：直接使用BGD
- 一般的mini-batch大小：2的6次方到2的9次方（或其他2的次方）
- 应当确保一组小集的内容可以被加载到内存中

比传统GD更快
基本思想：使用梯度的指数加权平均更新权重
在第t次迭代中：
- 计算当前mini-batch的dW和db
- 计算 $V_{dW}=\beta V_{dW}+(1-\beta)dW$ 以及 $V_{bd}=\beta V_{db}+(1-\beta)db$
- 使用 $V_{dW}$ 和 $V_{db}$ 更新权重
整个过程就像是小球在碗内向下滚动，获得了一个动量，变得更快，但是存在摩擦（β）不至于无限加速
实践中，β常取值0.9
在使用GDM的时候，不需要考虑偏差矫正

加速梯度下降
在第t次迭代中：
- 计算当前mini-batch的dW和db
- 计算 $S_{dW}=\beta S_{dW} + (1-\beta)dW**2$ (保存了导数平方的指数加权平均数)
- 计算 $S_{db}=\beta S_{db} + (1-\beta)db**2$
- 更新参数 $W:=W-\alpha \frac{dW}{\sqrt{S_{dW}}+\epsilon} \; b:=b-\alpha \frac{db}{\sqrt{S_{bd}}+\epsilon}$
减弱垂直方向（b）的震荡，并适度放大水平方向（W）的震荡
此处的β和GDM不是一个参数
ε是防止分母过于接近0出现除零问题