梯度下降需要注意的地方

  1. 调整学习率
    太大会造成无法到达全局最小点
    太小会造成收敛速度过慢
    解决方法——自动调整学习率:
    随着epochs的增加而减小,给不同的参数不同的学习率
    Adagrad
    Adagrad
    最优的step是一次微分/二次微分,这里考虑了二次微分
  2. 随机梯度下降(Stochastic Gradient Decent)
    Dradient Decent:用所有参数一次update所有参数
    Stochastic Gradient Decent:每一次取其中的一个样本,更新一次参数
    优点:收敛速度比较快
  3. 特征归一化(Feature Scaling)
    把不同特征的分布的range缩放成一样,如果特征的分布range 不同,那么梯度下降可能不能到达全局最低点
    归一化的方式
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值