强化学习经典教材的配套源代码上线了

最新推荐文章于 2024-05-22 23:44:47 发布

MU大尧

最新推荐文章于 2024-05-22 23:44:47 发布

阅读量898

点赞数 8

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20195745/article/details/137015452

版权

清华大学李升波教授撰写的强化学习经典教材《Reinforcement Learning for Sequential Decision and Optimal Control》，曾于2023年4月首次由Springer出版社出版，近期该书的全套源代码亦由Springer上线，正式与读者见面了！

书籍及源代码下载网站：Reinforcement Learning for Sequential Decision and Optimal Control | SpringerLink

图书简介：

该书主要面向工业控制领域的研究者和工程师撰写，按照原理剖析、主流算法、典型示例的架构，系统地介绍了用于动态系统决策与控制的强化学习方法。全书共分为11章，内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点。下面简要介绍各章的主要内容：

第1章介绍强化学习（Reinforcement Learning, RL）概况，包括发展历史、知名学者、典型应用以及主要挑战等。

第2章介绍RL的基础知识，包括定义概念、自洽条件、最优性原理与问题架构等。

第3章介绍无模型RL的蒙特卡洛法，包括Monte Carlo估计、On-policy/Off-policy、重要性采样等。

第4章介绍无模型RL的时序差分法，包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。

第5章介绍带模型RL的动态规划法，包括策略迭代、值迭代、通用迭代架构与收敛性证明等。

第6章介绍间接型RL的函数近似法，包括常用近似函数、值函数近似、策略函数近似以及所衍生的Actor-Critic架构等。

第7章介绍直接型RL的策略梯度法，包括On-policy gradient、Off-policy gradient、它们的代价函数与优化算法等。

第8章介绍带模型的近似动态规划（ADP）方法，包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。

第9章探讨了状态约束的处理手段，它与求解可行性、策略安全性之间的关系，以及Actor-Critic-Scenery三要素求解架构等。

第10章介绍深度强化学习（DRL），即以神经网络为载体的RL，包括神经网络的原理与训练，深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、SAC、DSAC等典型深度化算法。

第11章介绍RL的各类拾遗，包括鲁棒性、POMDP、多智能体、元学习、逆强化学习、离线强化学习以及训练框架与平台等。

课程配套资源介绍：

配套课程PPT——百度、知乎搜索“强化学习与控制”。

微信公众号——微信搜索“智能驾驶课题组”

课程配套代码——为了便于工程人员与广大读者的学习，配套的源代码已经上传至书籍的Springer网站：https://link.springer.com/book/10.1007/978-981-19-7784-8，读者可自行下载辅助学习，下面简要说明代码的下载方式、安装要求以及相关例子。

（1）获取代码库：

点击上述网址的白色选项“Access Source Code”跳转至Github。进入Github后，点击绿色选项code，选择Download ZIP下载压缩文件；或使用Git将存储库克隆到本机。

（2）安装步骤

1. 克隆代码库：

在本机终端或命令行界面中，执行命令以克隆代码库到本地：git clone https://github.com/Apress/Reinforcement-Learning-for-Sequential-Decision-and-Optimal-Control

环境配置：

安装Anaconda或Miniconda

在终端或命令行中输入命令配置环境：conda env create -n rlbook -f environment.yml

在终端或命令行中输入命令激活环境：conda activate rlbook

此后，打开每一个python文件运行main或plot的python脚本即可。

（3）源代码的介绍：

Chap_3_4_CleanRobot:第3章和第4章的清扫机器人示例代码。

Chap_5_AutoCar_GridRoad:第5章的自动驾驶汽车代码示例。

Chap_6_Actor_Critic_Algorithm:第6章的3类Actor-Critic（AC）算法代码。

Chap_7_AC_with_Baseline:第7章有/无baseline的AC算法性能对比。

Chap_8_Veh_Track_Ctrl:第8章的车辆跟踪控制示例代码。

Chap_9_Car_Brake_Control:第9章的紧急制动控制示例代码。

遵循以上步骤，您将成功设置和运行本代码库的示例代码，并开始探索强化学习的精彩世界！如果存在问题，欢迎大家加入GOPS用户交流群进行交流。

GOPS开源网站见: Welcome to GOPS’s documentation! — GOPS 1.1.0 documentation

关注

8
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
强化学习经典教材的配套源代码上线了

课程配套代码——为了便于工程人员与广大读者的学习，配套的源代码已经上传至书籍的Springer网站：https://link.springer.com/book/10.1007/978-981-19-7784-8，读者可自行下载辅助学习，下面简要说明代码的下载方式、安装要求以及相关例子。或使用Git将存储库克隆到本机。第10章介绍深度强化学习（DRL），即以神经网络为载体的RL，包括神经网络的原理与训练，深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、SAC、DSAC等典型。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。