.强化学习

http://blog.exbot.net/archives/535?replytocom=23526


Lendaris对控制工程发展阶段进行了划分:

第一阶段为反馈机制的引入;

第二阶段的特点是通过微分方程对动态系统进行分析,Fourier和Laplace变换,状态空间法、随机方法、Hilbert空间等数学工具奠定了控制系统分析的理论基础,在此基础上发展起了经典控制、现代控制。最优控制、随机控制和鲁棒控制等理论和方法。

第三阶段的特点是可在线选择控制器,如自适应控制和学习控制,通过状态观测和性能评价在一个特定的控制器集合内在线选择控制器,却仍不具备经验策略的记忆能力。Lendaris认为第四阶段的控制系统应该是具有经验记忆能力的,能够利用以往的经验更为有效、高效地实施控制。

那么,实现经验记忆具体方法是什么?是的,强化学习。

最近打算写一篇关于近似动态规划与强化学习的综述。当然了,看了几百篇论文,值得引用可能只会有几十篇。值得推荐给大家读的那就需要优中选优了。文章不想多推荐,毕竟更新太快,也不适合入门。下面主要介绍几本书.

Lewis的几篇重要综述还是需要读的:

2009 Reinforcement Learning and Adaptive Dynamic Programming for Feedback Control
2011 Approximate reinforcement learning An overview

另外,Reinforcement Learning State-Of-the-Art这本书各方面介绍的很详细了,体现的是欧洲体系。

下面是几本书,请依次阅读。(大部分我都上传至新浪共享了,感兴趣的可以去找一下)

1.强化学习入门

Reinforcement Learning: An Introduction

2.强化学习最新进展

Reinforcement Learning: State-of-the-Art (Adaptation, Learning, and Optimization)

3.强化学习算法

Algorithms for Reinforcement Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

4.近似动态规划专题

Reinforcement Learning and Dynamic Programming Using Function Approximators

Reinforcement Learning and Approximate Dynamic Programming for Feedback Control

Approximate Dynamic Programming

国内的图书有木有?回答有!我看到的有两本,但需要一定的基础,至少需要掌握1,3以及4中某一本的知识才能看

第一本徐昕的主要研究的是线性时域差值、核方法等

增强学习与近似动态规划

第二本

随机学习与优化——基于灵敏度的方法(信息技术和电气工程学科国际知名教材中译本系列)

用摄动分析的方法,将马尔可大决策过程、强化学习、辨识和自适应控制等学习和优化的不同学科统一起来,思想比较屌,对内功要求也比较高。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值