在优化问题里,强化学习相比启发式算法有什么好处?

本文出自https://mp.weixin.qq.com/s/J1SsNtU1wkqdGcKZvNACHw纯属个人科研收餐使用
存在部分数学符号和公式,都可通过上面链接查看!!!!
关于强化学习和传统优化算法(包括:数学优化,启发式,元启发式)的探讨越来越多了,很多同学可能是一上来就集中在一个方向和方法上,并没有在全局的视角去审视这几类方法的不同。我这里就做一个总结,欢迎各位来讨论:

1 强化学习源自于动态规划 天生善于处理动态(序列)优化问题

没学过强化学习的同学,应该是知道动态规划的吧。**强化学习实际上起源于动态规划,而动态规划和强化学习解决的是一个动态优化问题或者说是序列优化问题。学过强化学习的同学都知道一个叫做马尔科夫决策过程的概念(Markov Decision Process)。进一步地,由于强化学习继承了动态规划和马尔科夫决策过程的基本框架,使得强化学习依然具备一些传统动态规划和马尔科夫决策过程的理论保障。**强化学习善于解决动态优化问题并不完全是一种感性的认识,在着后边还具备着严谨的理论支撑。

反观贝叶斯优化、粒子群算法、遗传算法这样的启发式搜索算法,还有传统的数学优化方法主要是针对静态的优化问题而设计的。虽然这些方法也不是不能用来解动态(序列)优化问题,但相比强化学习来说 它们这些方法 1是缺乏理论保障;2是实际效果确实也差。所有说在考虑上强化学习之前,就先要看你的问题是不是序列决策问题,如果是那么上了强化学习才有可能取得一个不错的效果,如果不是那么就没有

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

喝凉白开都长肉的大胖子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值