李宏毅机器学习——Gragient Descent

1.Set the learing rate carefully

learning rate:理解为更新参数时的步长,就是你可以按照梯度下降方向一小步一小步地走,也可以一大步一大步地走,但是如果步长设置的不合适,可能就会错过最优的参数。

调整learning rate的简单准则:

1)随着参数的更新越来越小

2)不同参数的learning rate不同

Adagrad可以根据不同的参数设置学习率,g是L对参数w的微分

2.Stochastic Gradient Descent

正常更新参数是将训练集中所有样本的loss都算出来都再更新,而这里是每计算出一个样本的loss就进行参数更新。

3.Feature Scaling

1)目的:让不同的输入,例如x1和x2的分布尽可能一致(左图到右图)

2)这样做的原因:提高梯度下降算法的效率。如果x2的取值比x1普遍更大,那么x2对输出y的影响就比x1大,w2对loss的影响也就越大,因此loss对w2的微分是更陡峭的。而这种椭圆形的loss进行梯度下降的效率是很低的。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值