最优停止理论的推导_强化学习与最优控制:入门

Lecture 1

资源:https://web.mit.edu/dimitrib/www/RLbook.html

在未来的自动控制方向研究中,强化学习与控制系统决策将通过互补的形式推导该领域技术的发展。强化学习与最优控制系统的核心是决策A technological “miracle” couched in sequential decision making methodology

人工智能(特别是强化学习)与动态规划是该研究方向的两个重要的理论基础:

  • AI/RL = artificial intelligence / reinforcement learning: Learning through data/experience, simulation, model-free methods, feature-based representations
  • Decision/Control/DP = Dynamic programming: Principle of Optimality; Markov decision problem; POMDP; policy iteration/value iteration

该领域的发展历史:Historical highlights

  • Optimal control (Bellman, Shannon, and other 1950s)
  • Al/Rl and decision/control/ DP ideas meet (late 80s-early 90s)
  • First success, backgammon program (Tesauro, 1992, 1996)
  • Algorithmic progress, analysis, applications (mid 90s)
  • Machine learning, big data, robotics,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值