关于梯度下降优化算法momentum的一些疑

在学习梯度下降优化算法时候,遇到了一些困难,想必大家都阅读过这篇文章,An overview of gradient descent optimization algorithms。刚读到momentum时候,就产生了一些疑惑,特此记录下来。下面是我在知乎上的提问,等待各位大神能够给予一些解答。地址:https://www.zhihu.com/question/62829020


关于梯度下降优化算法Momentum有几个问题想不太明白。

1. 冲量的初始值如何设定?下面公式中v的初始值是为0么?



2. 为什么tensorflow中的公式和一般论文中给出的有些区别。

这是tensorflow中的公式。

这是一般论文中提及的公式。


貌似学习率的位置不一样,为什么会有这种区别?


3. 关于算法本身,下面图中为什么是y方向的梯度要更大呢?y方向不是等高的么?那么梯度应该小啊?x方向梯度才会很大吧?求解释。。。。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值