李宏毅机器学习笔记01(梯度下降的一些内容)

在梯度下降中,learning rate是一个挺难选择的点:
选择大一点的学习率:可以快速的下降,但是容易出现降过头的现象。
选择较小的学习率:不容易错过极值点,但是迭代的时间太长。

一种常见的想法:就是想着随着参数调整次数的增多,学习率应该越来越小 a = a/(t+1) t表示迭代的次数;
但是最好的方式是每一个参数对应一个学习率,这样就引出了Adagrad。
在这里插入图片描述
adagrad的式子如上。

SGD:stochastic Gradient Descent 随机梯度(天下武功唯快不破)
在这里插入图片描述
每计算一个样本的loss就更新一次w,正常的情况下是所有的样本的loss计算完成之后取平均,然后更新w就如图的左边,方向是对的。那么sgd的做法就是计算一个样本之后就更新参数,虽然不一定方向正确,但是胜在第一种方法走一次,我SGD就走很多次,c从而达到快速迭代的目的。

接下来是特征缩放:
特征缩放的问题用这张图说明:
在这里插入图片描述
图的左边是未缩放的,虽然能够最终迭代到目标值,但是开始的时候由于没有缩放,导致影响力较大的那个值的梯度方向上更加被有限下降,相当于多走了弯路;而在进行了梯度缩放之后,如右图,梯度下降的时候,直接剑指圆心,不会走弯路,所以特征缩放确实很有用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值