强化学习
ttliu_kiwi
进一寸有一寸的欢喜~
读经典的书,走更多的路。
展开
-
强化学习导论 | 第10章 On-policyControl with Approximation
上一章讲了on-policy策略下,怎样估计状态价值函数,也就是“预测”任务。对应的还有一个“控制”任务,就是要找到最优策略。并且,在控制任务中,我们现在要估计的是动作价值函数,即q^(s,a,w)≈q∗(s,a)\hat{q}(s, a, \mathbf{w}) \approx q_*(s, a)q^(s,a,w)≈q∗(s,a),其中w∈Rd\mathbf{w} \in \mathbb{R...原创 2020-04-28 08:12:32 · 392 阅读 · 0 评论 -
强化学习导论 | 第九章 on-policy的近似预测
本章的题目为"on-policy prediction with approximation",之前几章的内容也涉及到了on-policy prediction,这里的不同就在于“估计”。因为前面讲到的内容是根据策略采样轨迹,再基于轨迹得到的奖励,计算价值函数。但这里不再是采用这样的思路,而是估计价值函数,并且估计出来的价值函数不再是以表格的形式存在,而是得到一个参数化的函数形式。形式化表示为v^...原创 2020-04-25 17:55:42 · 583 阅读 · 1 评论 -
强化学习导论 | 第八章 规划和学习
前面几章已经讲了model-based (如:动态规划)和model-free (蒙特卡洛、时序差分)方法。这两种方法的区别在于计算价值函数的时候是否已知模型(这里指状态转移概率)。虽然这两种强化学习方法不同,但也有相同的地方,比如:两种方法的核心都在于计算价值函数,还都是根据未来的奖励来估算当前状态价值。既然有相同之处,这两种强化学习方法能否统一起来呢?这就是本章的内容,其中,model-ba...原创 2020-04-07 17:45:59 · 1652 阅读 · 0 评论 -
强化学习导论 | 第七章 n步时序差分算法
前面讲到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根据采样到的经验轨迹实际得到的奖励来更新轨迹中出现的状态的价值,即在每个轨迹结束之后更新。TD(0)方法中某个状态的价值是根据从当前状态走一步的即时奖励和后续状态的估计价值相加得来的,即在执行一个动作之后就更新价值。那么,能否将MC和TD(0)结合呢?基于这个想法,就产生了n步时序差分算法。即在某个状态的价值等于在当前状态下走n步得到的奖...原创 2020-03-19 16:56:50 · 2272 阅读 · 1 评论 -
强化学习导论 | 第六章 时序差分方法
前面讲到的动态规划方法和蒙特卡洛方法都可以用来计算价值函数。动态规划方法是model-based的,需要知道状态的转换概率,某个状态的价值是根据其后续的状态价值计算的;蒙特卡洛方法是model-free的,不需要知道状态的转换概率,某个状态的价值是根据从该状态开始到轨迹结束的折扣奖励来计算的。本章的时序差分方法是对动态规划方法和蒙特卡洛方法的结合,跟蒙特卡洛方法一样,也是根据经验来学习,而不需要知...原创 2020-03-12 15:55:24 · 558 阅读 · 0 评论 -
强化学习导论 | 第五章 蒙特卡洛方法
在第四章 动态规划中,已知模型(即状态转换概率)能够对策略进行评估和更新,最终得到最优的策略和最优价值函数。但是,很多情况下,状态转移概率p(s′,r∣s,a)p(s', r | s, a)p(s′,r∣s,a)并不知道,那要怎么求解最优策略呢?本章将的蒙特卡洛方法可以利用经验学习到价值函数和策略。经验是指agent和环境交互生成的(状态,动作,奖励)的轨迹序列。文章目录5.1 蒙特卡洛预测 ...原创 2020-03-05 11:07:12 · 751 阅读 · 0 评论 -
强化学习导论 | 第四章 动态规划
本章主要讲了动态规划是怎样求解价值函数(value function)的。1. 动态规划和强化学习动态规划问题的特点是:原创 2020-02-29 16:07:59 · 391 阅读 · 0 评论 -
强化学习导论 | 第三章 有限马尔科夫决策过程
本章将讲解有限马尔科夫决策过程中的有关反馈、策略和价值函数的内容。这个问题也是评估性反馈(evaluative feedback),但和上一章中讲到的多臂赌博机不同,多臂赌博机仅包含一个状态。在包含多个状态的情况下,我们需要考虑在不同状态下选择不同的动作。文章目录3.1 agent和环境的交互3.2 马尔科夫性质3.1 agent和环境的交互agent是决策者,在每个时间步ttt与环境进行交...原创 2020-02-25 19:35:34 · 728 阅读 · 0 评论 -
强化学习导论 | 第二章 多臂赌博机
这本书第一部分的内容是表格解决方法(即用表格来存储价值函数,从而选择最优动作)。但这类方法仅适用于状态空间和动作空间不大的情况下。本章要讲的赌博机问题只存在一个状态。多臂赌博机问题简介假设在我们面前有kkk个赌博机(即kkk个动作),每当我们选择一个赌博机,并且摇动它的摇杆时,就会得到一个数值奖励。我们的目标是最大化一定时间内总的奖励。由于摇动一个赌博机的摇杆得到的奖励是不确定的,所以某个动...原创 2020-02-20 16:14:50 · 351 阅读 · 0 评论 -
强化学习导论 | 第一章 简介
概要主要从四个方面介绍:强化学习是什么?解决什么问题?用什么样的方式解决问题?强化学习的重要概念强化学习是什么?强化学习是一个序列决策问题。即处在当前状态应该做出什么样的动作。强化学习的思想就是在和环境的不断交互中,最大化奖励。以游戏为例,采取某个策略赢得游戏,则“强化”这个策略,即倾向于选择该策略,以取得好的结果。当然,这里也涉及强化学习中的探索(explpration)和利...原创 2020-02-17 21:10:20 · 416 阅读 · 0 评论