Andrew-Coursera-DL课程-笔记part2-2（Optimization algorithms）

最新推荐文章于 2024-08-21 09:21:33 发布

wang2008start

最新推荐文章于 2024-08-21 09:21:33 发布

阅读量487

点赞数

分类专栏：深度学习机器学习 tensorflow Python 文章标签：加权的移动平均 Optimiza

本文链接：https://blog.csdn.net/wang2008start/article/details/78164757

版权

67 篇文章 0 订阅

订阅专栏

40 篇文章 0 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

Mini-batch gradient descent
Understanding mini-batch gradient descent
mini-batch大小为1时，即为SGD

数据集小于2000，使用batch。大数据集时，mini-batch大小选择，64,128,256,512等2的指数级。
Exponentially weight averages
加权的移动平均法，选取各时期权重数值为递减指数数列的均值方法。指数平滑法解决了移动平均法需要几个观测值和不考虑t—n前时期数据的缺点，通过某种平均方式，消除历史统计序列中的随机波动，找出其中主要的发展趋势。
指数加权平均: $v_t = \beta v_{t-1} + (1-\beta) \theta_t$
bias correction: $v_t = \frac{v_t}{1-\beta^{t}}$
窗口: $\frac{1}{1 - \beta}$

当beta设置为0.98时比0.9更平滑，受历史平均值影响更大.
当beta设置为0.5时，标识时间窗口变为2.
0.9^10近似于0.35，so，对于指数加权平均，beta=0.9时，只有近10天的数据会产生影响，因为超过10天的数据会产生小于1/3的影响
0.98^50近似于0.36，对于beta=0.98时，近50天的数据都会产生影响.
Understanding exponetially weighted averages
Bias correction in exponentially weighted averages
bias correction: $v_t = \frac{v_t}{1-\beta^{t}}$
Gradient descent with momentum
动量法，思想是前面的指数加权平均，梯度作为当前值，动量作为历史值
RMSprop
Adm optimization algorithm
Learning rate decay
The problem of local optimal