轻松入门强化学习的一本新书《Easy RL 强化学习教程》

人邮异步社区

已于 2022-03-13 10:26:20 修改

阅读量3.1k

点赞数 1

文章标签：深度学习强化学习机器学习

于 2022-03-13 10:23:16 首次发布

本文链接：https://blog.csdn.net/epubit17/article/details/123455230

版权

本文介绍了如何利用李宏毅、周博磊和李科浇三位专家的公开课精华，构建《EasyRL强化学习教程》，涵盖了基础理论、马尔可夫决策过程、深度强化学习算法等，通过实例和习题面试题，助你轻松入门并提升面试竞争力。

摘要由CSDN通过智能技术生成

强化学习（reinforcement learning，RL）讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment）里面去最大化它能获得的奖励。如图 1.1所示，强化学习由两部分组成：智能体和环境。在强化学习过程中，智能体与环境一直在交互。智能体在环境里面获取某个状态后，它会利用该状态输出一个动作（action），这个动作也称为决策（decision）。然后这个动作会在环境之中被执行，环境会根据智能体采取的动作，输出下一个状态以及当前这个动作带来的奖励。智能体的目的就是尽可能多地从环境中获取奖励。

强化学习的国内相关资料相对较少，入门较为困难。因此，笔者尝试在网上寻找公开课进行学习，在精心挑选后，使用李宏毅老师的“深度强化学习”、周博磊老师的“强化学习纲要”以及李科浇老师的“百度强化学习”公开课（以下简称 “3 门公开课”）作为学习课程，获益匪浅，于是将所学内容结合笔者个人的理解和体会初步整理成笔记。之后，在众多优秀开源教程的启发下，笔者决定将该笔记制作成教程来让更多的强化学习初学者受益。这本教程就是刚刚上架的“蘑菇书”《Easy RL 强化学习教程》。

Easy RL 强化学习教程

萃取3门强化学习经典公开课精华

李宏毅“深度强化学习”+周博磊“强化学习纲要”+李科浇“世界冠军带你从零实践强化学习”

Datawhale的开源“蘑菇书”——Easy-RL

来自中科院、清华、北大的Datawhale成员自学笔记，GitHub发布9个月下载过万。

小白轻松入门的指南，大厂强化学习面试敲门砖

简单生动的例子+重难点公式详细推导+关键词、习题和面试题+Python实现代码

4项配套资源，满满意外收获！

◆ 可下载Python实现代码 ◆ 可下载习题答案

◆ 可下载面试答案 ◆ 学习交流服务

全书主要内容源于 3 门公开课，并在其基础上进行了一定的原创。比如，为了尽可能地降低阅读门槛，笔者对 3 门公开课的精华内容进行选取并优化，所涉及的公式都有详细的推导过程，对较难理解的知识点进行了重点讲解和强化，方便读者较为轻松地入门。此外，为了书籍的丰富性，笔者还补充了不少 3 门公开课之外的强化学习相关知识。全书共 13 章，大体上可分为 2 个部分：第 1 部分包括第 1 ∼ 3 章，介绍强化学习基础知识以及传统强化学习算法；第 2 部分包括

第 4 ∼ 13 章，介绍深度强化学习算法以及常见问题的解决方法。第 2 部分各章相对独立，读者可根据自己的兴趣和时间情况选择阅读。

李宏毅老师是台湾大学副教授，其研究方向为机器学习、深度学习及语音识别与理解。李宏毅老师的课程在国内很受欢迎，很多人选择的机器学习入门学习材料都是李宏毅老师的公开课视频。李宏毅老师的“深度强化学习”课程幽默风趣，他会通过很多有趣的例子来讲解强化学习理论。比如李老师经常会用玩雅达利游戏的例子来讲解强化学习算法。周博磊老师是 UCLA（University of California, Los Angeles，加利福尼亚大学洛杉矶分校）助理教授（原香港中文大学助理教授），其研究方向为机器感知和智能决策，在人工智能顶级会议和期刊发表了 50 余篇学术论文，论文总引用数超过 1 万次。周博磊老师的“强化学习纲要”课程理论严谨、内容丰富，全面地介绍了强化学习领域，并且有相关的代码实践。李科浇老师是飞桨强化学习 PARL 团队核心成员，百度高级研发工程师，其所在团队曾两度夺得 NeurIPS 强化学习赛事冠军。李科浇老师的“百度强化学习”实战性强，通过大量的代码来讲解强化学习。经过笔者不完全统计，本书所依托的 3 门公开课的总播放量为 80 多万，深受广大初学者欢迎，3 位老师的课程均可在哔哩哔哩（B 站）上进行观看。读者在观看相关公开课的同时，可以使用本书作为教辅，进一步深入理解公开课的内容。

本书在大部分章节的最后设置了原创的关键词、习题和面试题来提高和巩固读者对知识的清晰度和掌握程度。其中，关键词部分总结了对应章节的重点概念，方便读者高效地回忆并掌握核心内容；习题部分以问答的形式阐述了本章节中出现的知识点，帮助读者理清知识脉络；面试题部分来源于大厂的算法岗面试真题，通过还原最真实的面试场景和面试的问题，帮助读者开阔思路，为读者面试理想的岗位助力。此外，笔者以为，强化学习是一个理论与实践相结合的学科，读者不仅要理解其算法背后的一些数学原理，还要通过上机实践来实现算法。本书配有对应的 Python 代码实现，可以让读者通过动手实现各种经典的强化学习算法，充分掌握强化学习算法的原理。本书经过近 1 年的更新迭代以及读者对于我们开源版教程的上百次的反馈和交流，对您的学习和工作一定会是一个有利的加持。