自动驾驶、强化学习书籍推荐——《Reinforcement Learning for Sequential Decision and Optimal Control》

  今天向大家推荐一本清华大学iDlab课题组用五年的时间撰写的强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》, 2023年由Springer出版的强化学习英文书籍。书籍内容知识点全面,章节设计合理,非常适合希望入门和想深入学习强化学习和自动驾驶的同学和科研同仁阅读。下面就由我向大家简单介绍一下这本书。

1.图书简介

  本书面向工程领域的科研人员和工程师,按照原理剖析、主流算法、典型示例的架构,介绍用于复杂系统动态决策及最优控制的强化学习方法。本书内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点,旨在为领域内的行业同仁提供一本适合入门学习和能力进阶的参考书籍。

2.作者寄语

  亲爱的读者们,随着工业领域对复杂决策与控制问题处理需求不断增加,以模仿人类大脑学习机制为原理的强化学习技术,展现出十分广阔的应用前景。然而,强化学习本身所涉及的数理知识深奥,体系比较繁杂,而实际工程应用又充满了各种各样地挑战。为了应对上述挑战,笔者依托在清华大学开设的研究生课程《强化学习与控制》,撰写了这一本教学参考书。在写作本书的过程中,笔者广泛征集了行业专家、领域学者的意见,力求打造一本内容全面、简洁明了的实用教材。期望您在学习过程中能够掌握强化学习的核心概念,熟练地运用各类算法设计,并将其用于解决实际工业控制问题。在此,提前预祝您学习愉快,收获满满!

3.作者简介

  李升波

  清华大学车辆与运载学院教授,博士生导师。先后留学工作于斯坦福大学,密歇根大学和加州大学伯克利分校。主要从事自动驾驶汽车、强化学习、最优控制与估计等研究。他的研究提出了周期波动型节能操控、网联车群分布式控制、类脑学习集成式决策等核心理论方法,突破了高级别智能汽车自主学习与数据闭环所面临的一系列关键技术难题。获中国自动化学会自然科学一等奖、中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。他是教育部青年科学奖的入选者,曾获得国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、清华大学青年教师学术新人奖、清华大学青年教师教学优秀奖等。担任AI国际评测组织MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的理事会委员、中国汽车工程学会青工委首任主任、IEEE OJ-ITS高级副主编、IEEE TITS/IEEE ITSM/IEEE TIV副主编等。

4.内容简介

书总共包括11章。

第1章介绍强化学习(Reinforcement Learning, RL)概况,包括发展历史、知名学者、典型应用以及主要挑战等。

第2章介绍RL的基础知识,包括定义概念、自洽条件、最优性原理与问题架构等。

第3章介绍免模型RL的蒙特卡洛法,包括Monte Carlo估计、On-policy/Off-policy、重要性采样等。

第4章介绍免模型RL的时序差分法,包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。

第5章介绍带模型RL的动态规划法,包括策略迭代、值迭代、通用迭代架构与收敛性证明等。

第6章介绍间接型RL的函数近似法,包括常用近似函数、值函数近似、策略函数近似以及所衍生的Actor-critic架构等。

第7章介绍直接型RL的策略梯度法,包括On-policy gradient、Off-policy gradient、它们的代价函数与优化算法等。

第8章介绍带模型的近似动态规划(ADP)方法,包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。

第9章探讨了状态约束的处理手段,它与求解可行性、策略安全性之间的关系,以及Actor-Critic-Scenery三要素求解架构等。

第10章介绍深度强化学习(DRL),即以神经网络为载体的RL,包括神经网络的原理与训练,深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、DSAC等典型深度化算法。

第11章介绍RL的各类拾遗,包括鲁棒性、POMDP、多智能体、元学习、逆强化学习、离线强化学习以及训练框架与平台等。

5.获取途径

读者可以通过下面的链接获取和购买本书:
https://link.springer.com/book/10.1007/978-981-19-7784-8

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值