李宏毅深度学习笔记03(Gradient Descent梯度下降法)

Tuning your learning rates

1.learning rate,设置太小,时间过长;设置太大,无法找到最低点,永远在上面震荡。
在这里插入图片描述
2.Adaptive Learning Rates
(1)Adagrad
每一个参数的learning rate都把它除以之前算出来的微分值的root mean square(均方根).
在这里插入图片描述
在这里插入图片描述
(2)Stochastic Gradient Descent
在这里插入图片描述
原来的gradient descent,看完一遍example之后,就更新一遍参数。你会发现他是比较稳定的,他走的方向就是按照gradient descent 建议我们的方向来走。但是如果你是随机梯度下降的话,你每看一个example,你就update一次参数,如果你有20个example的时候,那你就update20次参数。所以当左边update一次的时候,右边已经update20次参数。右边,如果只看一个参数的话,他的步伐是小的,而且可能是散乱的,因为你每次只考虑一个example,他update的方向跟gradient descent 的tool Loss的error surface建议我们的方向不见得是一致的,但是因为我们可以看很多个example,左边走一步的时候,右边已经走了20步了,所以他走得反而是比较快的。
在这里插入图片描述
(3)Feature Scaling(特征归一化)
在这里插入图片描述
假设我有R个example,x1到xR。每一个example里面都有一组feature。
怎样做feature scaling,对每一个dimension i,都去算他的mean,写成mi;都去算他的stand deviation,写成deltai。
然后对每一个example,比如第r个example的第i个component,减掉mi,再除以deltai。做完这件事以后,所有dimension的mean就是0,variance就会是1。

Gradient Descent Theory

背后的数学理论得益于泰勒展开式

More Limitation of Gradient Descent

在这里插入图片描述
会在局部最小值的时候停下来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值