强化学习
文章平均质量分 71
智能学习者
这个作者很懒,什么都没留下…
展开
-
蒙特卡洛方法实现21点最优策略寻找(MC)
21点规则简介二十一点是一种扑克牌游戏,目标是尽量使手中牌的总点数达到 21 点,或是接近 21 点,但不能超过,然后与庄家的点数进行比较。人头牌(J、Q、K)的点数是 10。王牌可以是 11 点或 1 点,11 点时“可用”。这种游戏的整副牌是有限的(或者可以替换)。游戏开始时,每个玩家和庄家的一张牌朝上,另一张牌朝下。玩家可以请求更多的牌 (hit=1) 并决定何时停止请求牌(stick=0) 或者超过 21 点(爆牌)。玩家停止请求牌后,庄家翻开扣着的牌,并抽牌,直到所有点数之和是 17 点或大于原创 2020-11-07 00:15:32 · 8794 阅读 · 3 评论 -
动态规划寻找最优策略
本方法的基础是马尔可夫决策(MDP)和贝尔曼方程。本文目的在于找到一个使状态值最大的最优策略。本方法都是假设在不确定下环境做的测试,因此求的状态值是求的期望值。本文描述的方法包括三种:普通的策略迭代、截断策略评估迭代和值迭代方法。一、普通策略迭代方法(1)迭代策略评估用于对特定的策略求解其值函数。其实现算法如下:有四个输入参数:env:这是 OpenAI Gym 环境的实例,其中 env.P 会返回一步动态特性。policy:这是一个二维 numpy 数组,其中 policy.shape[原创 2020-10-31 21:47:17 · 2102 阅读 · 0 评论 -
动态规划(ql)
总结网格世界中的第一个策略迭代步骤(Sutton 和 Barto,2017 年)简介在动态规划设置中,智能体完全了解 MDP(这比强化学习设置简单多了。在强化学习设置中,智能体一开始完全不了解环境如何确定状态和动作,必须完全通过互动来了解如何选择动作。)迭代方法为了获得策略 π\对应的状态值函数 vπ,我们只需求解 vπ的贝尔曼预期方程对应的方程组。虽然可以通过分析方式求解方程组...原创 2019-10-30 18:01:04 · 461 阅读 · 0 评论 -
贝尔曼方程讲解
网格世界示例如下:贝尔曼方程在这个网格世界示例中,一旦智能体选择一个动作,它始终沿着所选方向移动(而一般 MDP 则不同,智能体并非始终能够完全控制下个状态将是什么)可以确切地预测奖励(而一般 MDP 则不同,奖励是从概率分布中随机抽取的)。在这个简单示例中,我们发现任何状态的值可以计算为即时奖励和下个状态(折扣)值的和。Alexis 提到,对于一般 MDP,我们需要使用期望值,因为通...原创 2019-10-24 09:43:59 · 1924 阅读 · 0 评论 -
强化学习框架总结
1设置,重新经历强化学习 (RL) 框架包含学习与其环境互动的智能体。在每个时间步,智能体都收到环境的状态(环境向智能体呈现一种情况),智能体必须选择相应的响应动作。一个时间步后,智能体获得一个奖励(环境表示智能体是否对该状态做出了正确的响应)和新的状态。所有智能体的目标都是最大化预期累积奖励,或在所有时间步获得的预期奖励之和。2阶段性任务与连续性任务任务是一种强化学习问题。连续性...原创 2019-10-23 17:11:32 · 3467 阅读 · 0 评论 -
强化学习一步动态特性
使用数学记法表示环境动态比较方便。在此部分,我们将介绍这一记法(可以用于任何强化学习任务),并使用回收机器人作为讲解示例。在随机时间步 t,智能体环境互动变成一系列的状态、动作和奖励。(S0,A0,R1,S1,A1,…,Rt−1,St−1,At−1,Rt,St,At)当环境在时间步 t+1 对智能体做出响应时,它只考虑上一个时间步 (St,At) 的状态和动作。尤其是,它不关心再上一个时...原创 2019-10-23 17:32:20 · 204 阅读 · 0 评论