梯度下降优化方法 与 自动控制 的关系

梯度下降的各种优化算法下面参考文献表述都很全面了,不在赘述,主要谈谈个人理解

其实对SGD的优化,跟自动控制中的PID思路其实是一样的

  • P(Propotion)比例项即当前偏差
  • I(Intergration)积分项即偏差的累积
  • D(differentiation)微分项即偏差的变化

SGD加入微分项,即对梯度中与此前优化的方向相同的方向进行加权,相反的方向进行降权,即Monentum,可以防止每次迭代下降梯度在某个方向上反复震荡

SGD加入积分项,即对梯度中累积优化多的方向进行降权,累积优化少的方向进行升权,即Adagrad,可以防止某个方向由于训练样本原因导致的在某个方向上下降过慢

SGD同时加入积分项和微分项,即Adam,可以综合两者的优点

参考文献:

https://zhuanlan.zhihu.com/p/32626442

https://zhuanlan.zhihu.com/p/22252270

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于RBFNN模型的优化,以下梯度下降优化算法常用于提高模型性能: 1. 普通梯度下降(Gradient Descent):基本的梯度下降算法,通过计算每个参数的梯度并更新参数来最小化损失函数。每次迭代都沿着负梯度方向更新参数,可以使用不同的学习率来控制参数更新的步长。 2. 随机梯度下降(Stochastic Gradient Descent,SGD):每次迭代仅使用一个样本的梯度来更新参数,相比普通梯度下降具有更快的收敛速度。SGD在处理大规模数据集时尤为有效,但可能会增加训练过程中的不稳定性。 3. Mini-batch梯度下降:介于普通梯度下降和随机梯度下降之间的一种方法。每次迭代使用一小批样本的平均梯度来更新参数,可以平衡收敛速度和稳定性。 4. 动量优化(Momentum Optimization):引入动量项来加速收敛并减少震荡。动量优化算法使用历史梯度来对当前梯度进行加权平均,以决定参数更新的方向和幅度。 5. 自适应学习率算法:使用自适应学习率的优化算法可以根据梯度的大小和方向来自动调整学习率。常见的自适应学习率算法包括Adagrad、Adadelta、RMSprop和Adam等。 在实践中,可以尝试不同的梯度下降优化算法,并根据模型的性能和训练效果选择最佳的算法。此外,参数调整和学习率的选择也对优化结果具有重要影响。因此,需要进行实验和评估来确定最佳的优化策略和超参数设置。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值