【每周一本书】之《深入浅出强化学习:原理入门》:零起点入门掌握AlphaGo的核心强化学习算法

【数据猿导读】 《深入浅出强化学习:原理入门》试图从最简单的解决马尔科夫决策过程的动态规划算法,一路讲解到最前沿的深度强化学习算法(Deep Q Network,DQN),单刀直入,全无枝枝蔓蔓之感。不仅解释数学原理,而且注重编程实践


编辑 | abby

官网 | www.datayuan.cn

微信公众号ID | datayuancn


强化学习是机器学习的一个重要分支,它试图解决决策优化的问题。所谓决策优化,是指面对特定状态(State,S),采取什么行动方案(Action,A),才能使收益最大(Reward,R)。很多问题都与决策优化有关,比如下棋、投资、课程安排、驾车,动作模仿等。


AlphaGo的核心算法,就是强化学习。AlphaGo不仅稳操胜券地战胜了当今世界所有人类高手,而且甚至不需要学习人类棋手的棋谱,完全靠自己摸索,就在短短几天内,发现并超越了一千多年来人类积累的全部围棋战略战术。


最简单的强化学习的数学模型,是马尔科夫决策过程(Markov Decision Process,MDP)。之所以说MDP是一个简单的模型,是因为它对问题做了很多限制。


1.面对的状态st,数量是有限的。


2.采取的行动方案at,数量也是有限的。


3.对应于特定状态st,当下的收益rt是明确的。


4.在某一个时刻t,采取了行动方案at,状态从当前的st转换成下一个状态st+1。下一个状态有多种可能,记为 , i = 1... n。


换句话说,面对局面st,采取行动at,下一个状态是 ,不是确定的,而是概率的,状态转换概率,记为P( | st, at )。但是状态转换只依赖于当前状态st,而与先前的状态st-1, st-2 ...无关。


解决马尔科夫决策过程问题的常用的算法,是动态规划(Dynamic Programming)。


对马尔科夫决策过程的各项限制,不断放松,研究相应的算法,是强化学习的目标。例如对状态st放松限制:


1.假如状态st的数量,虽然有限,但是数量巨大,如何降低动态规划算法的计算成本;


2.假如状态st的数量是无限的,现有动态规划算法失效,如何改进算法;


3.假如状态st的数量不仅是无限的,而且取值不是离散的,而是连续的,如何改进算法;


4.假如状态st不能被完全观察到,只能被部分观察到,剩余部分被遮挡或缺失,如何改进算法;


5.假如状态st完全不能被观察到,只能通过其他现象猜测潜在的状态,如何改进算法。

放松限制,就是提升问题难度。在很多情况下,强化学习的目标,不是寻找绝对的最优解,而是寻找相对满意的次优解。


强化学习的演进,有两个轴线:一个是不断挑战更难的问题,不断从次优解向最优解逼近;另一个是在不严重影响算法精度的前提下,不断降低算法的计算成本。


今天为大家推荐的《深入浅出强化学习:原理入门》就试图从最简单的解决马尔科夫决策过程的动态规划算法,一路讲解到最前沿的深度强化学习算法(Deep Q Network,DQN),单刀直入,全无枝枝蔓蔓之感。不仅解释数学原理,而且注重编程实践。


《深入浅出强化学习:原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从最基本的马尔科夫决策过程入手,将强化学习问题纳入到严谨的数学框架中,接着阐述了解决此类问题最基本的方法——动态规划方法,并从中总结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。基于这个思路,分别介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。


除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实例。因此,《深入浅出强化学习:原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。


目录


第一篇:强化学习基础


第二篇:基于值函数的强化学习方法


第三篇:基于直接策略搜索的强化学习方法


第四篇:强化学习研究及前沿


后记


推荐阅读:


【每周一本书】之《从Excel到Power BI:商业智能数据分析》:让你摆脱数据搬运工,成为数据分析师


【每周一本书】之《深度学习入门与实践》


本书由 数据猿联合电子工业出版社 共同推荐


【本栏目合作伙伴】:清华大学出版社、电子工业出版社、北京师范大学出版社、中国人民大学出版社。


欢迎更多合作伙伴加入!也欢迎勾搭小编,微信:wmh4178,备注“书”



金猿榜往期的获奖名单,将会在峰会现场隆重发布,期待我们的见面?



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在强化学习中,迷宫问题是一个经典的示例,用于解释强化学习的基本原理。在实现深入浅出强化学习:原理入门中,作者在第35页介绍了如何构建一个简单的迷宫,并使用表格型方法来解决寻宝问题。 首先,我们需要构建一个迷宫环境。迷宫可以表示为一个方格矩阵,其中包含障碍物、奖励以及终点位置。通过定义迷宫的尺寸以及具体的障碍物、奖励和终点位置,我们可以创建一个迷宫环境。 接下来,我们可以使用表格型方法解决寻宝问题。在表格型方法中,我们使用一个表格来表示智能体的价值函数或者Q函数。每个表格项表示在某个状态下采取某个动作的预期回报。 在开始之前,我们需要初始化所有表格项的值为0或者任意随机值。然后可以通过迭代更新表格中的项来得到更准确的估计值。 在每个时间步中,智能体会根据当前状态选择一个动作,并执行它。执行动作后,智能体会观察到一个新的状态以及相应的奖励。根据观察到的奖励和下一个状态,智能体可以使用贝尔曼方程来更新表格中的值。 重复这个过程直到达到预定的终止条件。通过不断迭代更新表格中的值,智能体可以学习到最优策略,使得它能够在迷宫中找到最有利的路径以获取最大的总回报。 通过实现这个迷宫构建和利用表格型方法解决寻宝问题的过程,我们可以更好地理解强化学习原理和应用。这个简单的示例可以作为学习和研究强化学习的起点,为进一步深入探索提供基础。 ### 回答2: 迷宫是强化学习中经常用来模拟环境的一种方式。通过构建迷宫,我们可以利用表格型方法解决寻宝问题,即使用简单的表格来存储环境、决策和奖励信息。 迷宫一般包括一个正方形的网格,其中有起点、终点和障碍物。我们可以使用数字表示不同的状态,例如起点为0,终点为9,障碍物为-1。除此之外,我们还需要定义动作的种类,例如上、下、左、右,用数字1、2、3、4分别表示。同时,我们需要为每个动作定义相应的奖励,例如到达终点的奖励为100,碰到障碍物的奖励为-10。 在解决迷宫问题时,我们可以利用表格方法中的Q-learning算法。Q-learning使用一个Q表格来存储每个状态下每个动作的Q值,其中Q值是根据当前状态和动作的奖励计算得出的。初始时,Q表格的值可以随机初始化。 在进行训练时,我们可以通过一系列的迭代过程来更新Q表格的值。每次迭代中,我们从起点开始,在每个状态下根据当前的Q表格选择相应的动作,并根据动作的奖励计算下一个状态的Q值。然后,将新的Q值更新到Q表格中。通过多次迭代,Q表格的值会逐渐趋于稳定。 在利用训练好的Q表格解决迷宫问题时,我们可以根据当前的状态查找Q表格中相应的最优动作,并执行该动作。这样,agent就能够根据学习到的知识在迷宫中寻宝。 利用表格型方法解决迷宫问题是强化学习中的一种经典方法,它可以帮助我们理解强化学习的基本原理。通过构建迷宫、定义奖励和动作,并使用Q-learning算法进行训练,我们能够获得一个可以解决寻宝问题的agent。 ### 回答3: 在深入浅出强化学习:原理入门本书的第35页上,介绍了如何利用表格型方法解决迷宫寻宝问题。这个问题可以用一个迷宫来建模表示,迷宫由一个二维的矩阵组成,每个位置可以是一个墙壁、一个通道或者是一个宝藏。 为了解决这个问题,我们可以使用Q-learning算法。Q-learning是一种基于值函数的强化学习算法,它通过不断更新值函数的估计来实现智能体的决策。 首先,我们需要定义一个Q表格,它是一个二维矩阵,其中行表示智能体所处的位置,列表示可能的动作。初始时,Q表格的所有元素都初始化为0。 然后,我们需要定义一些参数,如学习率α、折扣因子γ和探索率ε。学习率决定了每次更新的幅度,折扣因子决定了对未来奖励的重视程度,探索率决定了智能体在探索和利用之间的权衡。 接下来,我们开始训练智能体。在每次训练中,智能体会观察当前的状态,并根据探索率决定是进行探索还是利用Q表格来选择动作。如果进行探索,智能体会随机选择一个动作;如果利用Q表格,智能体会选择具有最高Q值的动作。 然后,智能体执行选择的动作,并观察新的状态和奖励。根据Q-learning算法,智能体会根据当前状态、选择的动作、新的状态和奖励来更新Q表格的值。更新的方式是通过下面的公式进行计算: Q(s,a) = (1-α) * Q(s,a) + α * (r + γ * maxQ(s',a')) 其中,s表示当前状态,a表示选择的动作,r表示当前状态下的奖励,s'表示新的状态,maxQ(s',a')表示新的状态下的最大Q值。 智能体会不断地在迷宫中移动,直到找到宝藏或者超过最大迭代次数。在训练的过程中,智能体的Q表格会逐渐收敛,最终可以达到一种最佳策略,即通过Q表格可以选择出最优的动作来解决寻宝问题。 这就是如何利用表格型方法解决迷宫寻宝问题。通过不断地训练和更新Q表格,智能体可以逐渐学习到最优的策略,从而成功找到宝藏。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值