【读书笔记】《深入浅出强化学习》思维导图(Reinforce Learning)及前两章节选

《深入浅出强化学习》探讨强化学习基础,包括马尔科夫决策过程理论,介绍马尔科夫性、马尔科夫过程和马尔科夫决策过程。强化学习解决智能决策问题,通过与环境交互学习策略。算法分为基于模型和无模型,基于值函数和直接策略搜索。书评强调动态规划、蒙特卡罗、时间差分等方法,并展望强化学习未来趋势,如与深度学习结合、专业领域应用和理论加强。
摘要由CSDN通过智能技术生成

强化学习基础
在这里插入图片描述
第二篇:基于值函数的RL
在这里插入图片描述
第三篇:基于直接策略搜索的RL
在这里插入图片描述
第四篇:前沿研究
在这里插入图片描述

本书前六章的内容及组织思路很大部分参考了David Silver的网络课程,同时参考了强化学习鼻祖 Richard S.Sutton 等人所著的 ReinforcementLearning:An Introduction,在此向Silver和Sutton致敬。本书第8章介绍了置信域强化学习算法,主要参考了John Shulman的博士论文,在此向 John Shulman博士及其导师 Pieter Abbeel致敬。第10章主要介绍了 Sergey Levine博士的工作,在此对其表示感谢。在强化学习前沿部分,本书介绍了最近一年该领域很优秀的研究工作,如Donoghue的组合策略梯度和Q-learning方法,Tamar的值迭代网络,Deisenroth的PILCO方法和McAllister的PILCO扩展方法,在此对这些作者表示感谢。
强化学习是集数学、工程学、计算机科学、心理学、神经科学于一身的交叉学科。

第一章 绪论

1.1什么是强化学习算法?

要回答这个问题,必须先回答强化学习可以解决什么问题,强化学习如何解决这些问题。

1.2强化学习可以解决什么问题

强化学习除了应用到非线性控制、下棋、机器人等方向,还可以应用到其他领域,如视频游戏、人机对话、无人驾驶、机器翻译、文本序列预测等。
用一句话来说明强化学习所能解决的问题:智能决策问题。更确切地说是序贯决策问题。什么是序贯决策问题呢?就是需要连续不断地做出决策,才能实现最终目标的问题。
那么,强化学习是如何解决这个问题的呢?

1.3 强化学习如何解决问题

先看看监督学习是如何解决问题的。从解决问题的角度来看,监督学习解决的是智能感知的问题。
智能感知必不可少的前提是需要大量长相差异化的输入以及与输入相关的标签。因此,监督学习解决问题的方法就是输入大量带有标签的数据,让智能体从中学到输入的抽象特征并分类。
强化学习则不同,强化学习要解决的是序贯决策问题,它不关心输入长什么样,只关心当前输入下应该采取什么动作才能实现最终的目标。
强化学习和监督学习的共同点是两者都需要大量的数据进行训练,但是两者所需要的数据类型不同。
监督学习需要的是多样化的标签数据,强化学习需要的是带有回报的交互数据。由于输入的数据类型不同,这就使得强化学习算法有它自己的获取数据、利用数据的独特方法。那么,都有哪些方法呢?这是本书重点要讲的内容。

1.4 强化学习算法分类及发展趋势

(1)根据强化学习算法是否依赖模型可以分为基于模型的强化学习算法和无模型的强化学习算法。
两类算法的共同点是通过与环境交互获得数据,不同点是利用数据的方式不同。基于模型的强化学习算法利用与环境交互得到的数据学习系统或者环境模型,再基于模型进行序贯决策。无模型的强化学习算法则是直接利用与环境交互获得的数据改善自己的行为。
(2)根据策略的更新和学习方法,强化学习算法可分为基于值函数的强化学习算法、基于直接策略搜索的强化学习算法以及AC的方法。
所谓基于值函数的强化学习方法是指学习值函数,最终的策略根据值函数贪婪得到。也就是说,任意状态下,值函数最大的动作为当前最优策略。基于直接策略搜索的强化学习算法,一般是将策略参数化,学习实现目标的最优参数。基于AC的方法则是联合使用值函数和直接策略搜索。
(3)根据环境返回的回报函数是否已知,强化学习算法可以分为正向强化学习和逆向强化学习。
在强化学习中,回报函数是人为指定的,回报函数指定的强化学习算法称为正向强化学习。
**延拓:**为了提升强化学习的效率和实用性,学者们提出了很多强化学习算法,如分层强化学习、元强化学习、多智能体强化学习、关系强化学习和迁移强化学习等。
发展趋势:
第一,强化学习算法与深度学习的结合会更加紧密。
机器学习算法常被分为监督学习、非监督学习和强化学习。强化学习算法其中一个趋势便是三类机器学习方法在逐渐走向统一的道路。该方向的代表作如基于深度强化学习的对话生成等。
第二,强化学习算法与专业知识结合得将更加紧密。
没有一个统一方法来进行两者的结合。通常来说可以重新塑造回报函数,或修改网络结构。该方向的代表作是NIPS2016的最佳论文值迭代网络(Value Iteration Networks)等。
第三,强化学习算法理论分析会更强,算法会更稳定和高效。
该方向的代表作如基于深度能量的策略方法,值函数与策略方法的等价性等。
第四,强化学习算法与脑科学、认知神经科学、记忆的联系会更紧密。

1.5 强化学习仿真环境构建

学习算法的共同点是从数据中学习,因此数据是学习算法最基本的组成元素。(请自学Python并安装gym)

1.6 本书主要内容及安排

第一条线索是强化学习的基本算法,第二条线索是强化学习算法所用到的基础知识。
第一条线索:强化学习算法解决的是序贯决策问题,而一般的序贯决策问题可以利用马尔科夫决策过程(MDP)的框架来表述。
对于模型已知的MDP 问题,动态规划是一个不错的解。因此在第 3 章我们会介绍基于动态规划的强化学习算法,并由此引出广义策略迭代的方法,是基于值函数强化学习算法的基本框架。

第3章是第4章基于蒙特卡罗方法、第5章基于时间差分方法和第6章基于值函数逼近方法的基础。

(一)无模型的强化学习算法是整个强化学习算法的核心,而基于值函数的强化学习算法的核心是计算值函数的期望。值函数是个随机变量,其期望的计算可通过蒙特卡罗的方法得到。因此,第4章我们介绍了基于蒙特卡罗的强化学习算法。
第4章到第5章介绍的是表格型强化学习。所谓表格型强化学习是指状态空间和动作空间都是有限集,动作值函数可用一个表格来描述,表格的索引分别为状态量和动作量。当状态空间和动作空间很大,甚至两个空间都是连续空间时,动作值函数已经无法使用一个表格来描述,这时可以用函数逼近理论对值函数进行逼近。本书第6章详细介绍了基于值函数逼近的强化学习算法。

(二)强化学习算法的第二大类是直接策略搜索方法。所谓直接策略搜索方法是指将策略进行参数化,然后在参数空间直接搜索最优策略。在第7章,我们详细介绍了策略梯度理论
基于策略梯度方法最具挑战性的是更新步长的确定。TRPO的方法通过理论分析得到单调非递减的策略更新方法。第8章我们对TRPO进行了详细推导和介绍。
当动作空间维数很高时,智能体的探索效率会很低,利用确定性策略可免除对动作空间的探索,提升算法的收敛速度,第9章对确定性策略搜索进行了详细介绍。
第7章到第9章,我们介绍的是无模型的直接策略搜索方法。对于机器人等复杂系统,无模型的方法随机初始化很难找到成功的解,因此算法难以收敛。这时,可以利用传统控制器来引导策略进行搜索。第 10 章介绍了基于引导策略搜索的强化学习算法
为了学习回报函数,第11章介绍了逆向强化学习的算法。

(三)第二条线索是强化学习算法所用到的基础知识
在第2章介绍了概率学基础。当模型已知时,值函数的求解可以转化为线性方程组的求解。在第3章,我们介绍了线性方程组的数值求解方法——高斯-赛德尔迭代法,并利用时变与泛函分析中的压缩映射证明了算法的收敛性。

在强化学习算法中,值函数是累积回报的期望。统计学中的重要技术,如重要性采样、拒绝性采样和 MCMC 方法都可用于强化学习算法中。我们在第4章介绍了这些基础知识。

在第6章介绍了基本的函数逼近方法:基于非参数的函数逼近和基于参数的函数逼近。在基于参数的函数逼近中,我们重点介绍了神经网络,尤其是卷积神经网络,因为卷积神经网络是DQN及其变种算法的基础。

在TRPO中,替代目标函数用到了信息论的熵和相对熵的概念,同时TRPO的求解需要用到各种优化算法,因此在第8章我们介绍了基本的信息论概念和基本的优化方法。

引导策略搜索强化学习的优化目标用到了KL散度和变分推理,以及大型的并行优化算法,因此,我们在第10章介绍了大型监督算法常用的LBFGS优化算法,及其学习中的并行优化算法ADMM算法和KL散度及变分推理。

——过渡

书评:

从最基本的马尔科夫决策过程入手,解决此类问题最基本的方法——动态规划方法。解决强化学习问题的基本思路:交互迭代策略和策略改善
之后介绍了基于值(value)函数的强化学习方法和基于直接策略(policy)搜索的强化学习方法,在基于值函数的强化学习方法中,介绍了蒙特卡罗法、时间差分法和值函数逼近法。
在基于直接策略搜索的强化学习方法中,介绍了策略梯度法、置信域策略法、确定性策略搜索法和引导策略搜索。
最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

定义强化学习:

目标:解决决策优化问题。
所谓决策优化,是指面对特定状态(State,S),采取什么行动方案(Action,A),才能使收益最大(Reward,R)。
强化学习的演进,有两个轴线:一个是不断挑战更难的问题,不断从次优解向最优解逼近;另一个是在不严重影响算法精度的前提下,不断降低算法的计算成本。
在这里插入图片描述

马尔科夫决策

最简单的强化学习的数学模型,是马尔科夫决策过程(Markov Decision Process,MDP)之所以说MDP是一个简单的模型,是因为它对问题做了很多限制。
s t s_{t} st:state-t, a t a_{t} at:action-t,)
1.面对的状态 s t s_{t} st ,数量是有限的。
2.采取的行动方案 a t a_{t} at,数量也是有限的。
3.对应于特定状态 s t s_{t}

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值