推荐清华大学李升波教授撰写的强化学习英文专著

本文介绍了人工智能和强化学习的发展，尤其强调了强化学习在道路交通和工业控制中的应用，如自动驾驶、AlphaGo的成功案例。同时，文章指出强化学习的工程应用面临的挑战，包括理论复杂性和实践难题，并概述了一本面向工程人员的参考书，详细讲解了RL的理论、方法和应用实例，旨在促进领域内的学习和进步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自2000年以来，人工智能的快速崛起正重塑人类社会的各个角落，有望引导工业文明进入第四次革命浪潮。以道路交通为例，汽车的智能化变革促使整个行业发生了翻天覆地的变化，包括驾驶辅助、自动驾驶、云控协同等一系列新技术如雨后春笋般涌现，它们在提升地面车辆行驶性能的同时，也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。

近年随着人工智能和自动控制的融合发展，以模仿人类大脑学习机制为原理的强化学习（RL，Reinforcement Learning）方法迅速进入人们的视野，它为大规模复杂动态系统的高性能决策与高实时控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能：它利用深度强化学习算法实现围棋智能的自进化，以超乎想象的速度进化出打败人类专业棋手的能力，引发学术界和工业界的热切关注。

尽管强化学习具有处理复杂任务的潜在优势，但是这一方法的工程应用尚属于起步阶段。一个重要的原因是该方法既具有前瞻理论的复杂度，又具有工程实践的挑战性。该方法隶属于最优控制、统计学习、最优化三者的交叉结合部，涉及的数理知识较深，内容涵盖面较广，学习周期较长，系统性掌握非一日之功。若是不能深入理解算法背后的核心理论，难以对算法和代码进行针对性调整和修改，不能发挥强化学习应有的性能，这极大制约了其工程应用。

为了应对上述挑战，这本参考书的撰写主要面向工程领域的科研工作者和技术人员，按照原理剖析、主流算法、典型示例的架构，介绍用于工业控制问题的强化学习理论及方法。所涉及的知识点包括马尔科夫决策、蒙特卡洛学习、时序差分学习、函数近似法、策略梯度法、近似动态规划、深度强化学习等。希望本书的出版将为领域内的行业同仁，包括本科生、研究生以及技术人员，提供一本体系较为完整、内容较为全面、讲解循序渐进，且适合入门学习和能力进阶的参考书籍。

全书总共包括11章。第1章介绍强化学习（Reinforcement Learning, RL）概况，包括发展历史、知名学者、典型应用以及主要挑战等。

第2章介绍RL的基础知识，包括定义概念、自洽条件、最优性原理与问题架构等。

第3章介绍免模型RL的蒙特卡洛法，包括Monte Carlo估计、On-policy/Off-policy、重要性采样等。

第4章介绍免模型RL的时序差分法，包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。

第5章介绍带模型RL的动态规划法，包括策略迭代、值迭代、通用迭代架构与收敛性证明等。

第6章介绍间接型RL的函数近似法，包括常用近似函数、值函数近似、策略函数近似以及所衍生的Actor-critic架构等。

第7章介绍直接型RL的策略梯度法，包括On-policy gradient、Off-policy gradient、它们的代价函数与优化算法等。

第8章介绍带模型的近似动态规划（ADP）方法，包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。

第9章探讨了状态约束的处理手段，它与求解可行性、策略安全性之间的关系，以及Actor-Critic-Scenery三要素求解架构等。

第10章介绍深度强化学习（DRL），即以神经网络为载体的RL，包括神经网络的原理与训练，深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、DSAC等典型深度化算法。

第11章介绍RL的各类拾遗，包括鲁棒性、POMDP、多智能体、元学习、逆强化学习、离线强化学习以及训练框架与平台等。

引用：S. Eben Li, Reinforcement Learning for Sequential Decision and Optimal Control. Springer Verlag, Singapore, 2023

电子版下载网址:

https://link.springer.com/book/10.1007/978 -981-19-7784-8

扫描二维码：

专著作者简介：李升波，清华大学车辆与运载学院教授，博士生导师。先后留学工作于斯坦福大学，密歇根大学和加州大学伯克利分校。主要从事自动驾驶汽车、强化学习、最优控制与估计等研究。他的研究提出了周期波动型节能操控、网联车群分布式控制、类脑学习集成式决策等核心理论方法，突破了高级别智能汽车自主学习与数据闭环所面临的一系列关键技术难题。获中国自动化学会自然科学一等奖、中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。他是教育部青年科学奖的入选者，曾获得国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、清华大学青年教师学术新人奖、清华大学青年教师教学优秀奖等。担任AI国际评测组织MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的理事会委员、中国汽车工程学会青工委首任主任、IEEE OJ-ITS高级副主编、IEEE TITS/IEEE ITSM/IEEE TIV副主编等。