![](https://img-blog.csdnimg.cn/6c4ddc4510a64aa9af7928c2efdd717f.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
深入理解强化学习
文章平均质量分 86
《深入理解强化学习》系列系统介绍了各种类型强化学习的基础知识,包括:多臂赌博机、马尔科夫决策过程、时续差分学习、DQN算法、PPO算法等。读者在有一定机器学习基础的情况下可以通过阅读本系列的文章快速掌握强化学习的相关知识。
von Neumann
技术日新月异,人类生活方式正在快速转变,这一切给人类历史带来了一系列不可思议的奇点。我们曾经熟悉的一切,都开始变得陌生。
展开
-
深入理解强化学习——马尔可夫决策过程:策略迭代与价值迭代的区别
首先我们来看看策略迭代,之前的例子在每个状态都采取固定的随机策略,每个状态都以0.25的概率往上、下、左、右,没有策略的改变。如图下图(b) 所示,我们再次执行策略更新,每个状态里面的值基本都改变了,它们不再上、下、左、右随机改变,而是会选取最佳的策略进行改变。当格子的值确定后,就会产生它的最佳状态,最佳状态提取的策略与策略迭代得出的最佳策略是一致的。状态后,我们应该往下走,这样就会得到最佳的价值。绿色右边的格子的策略也改变了,它现在选取的最佳策略是往左走,也就是在这个状态的时候,最佳策略应该是往左走。原创 2023-12-17 20:24:56 · 1415 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:价值迭代-[价值迭代算法]
价值迭代做的工作类似于价值的反向传播,每次迭代做一步传播,所以中间过程的策略和价值函数 是没有意义的。而策略迭代的每一次迭代的结果都是有意义的,都是一个完整的策略。价值迭代的迭代过程像是一个从某一个状态(这里是我们的终点)反向传播到其他各个状态的过程,因为每次迭代只能影响到与之直接相关的状态。之前,也就是还没将每个终点的最优的价值传递给其他的所有状态之前,中间的几个价值只是一种暂存的不完整的数据,它不能代表每一个状态的价值,所以生成的策略是没有意义的策略。如果不是,它所做的只是一个类似传递价值函数的过程。原创 2023-12-17 20:04:28 · 1712 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:价值迭代-[确认性价值迭代]
但我们可以把它转换成一个备份的等式。备份的等式就是一个迭代的等式。我们不停地迭代贝尔曼最优方程,价值函数就能逐渐趋向于最佳的价值函数,这是价值迭代算法的精髓。,我们直接通过贝尔曼最优方程进行迭代,迭代多次之后,价值函数就会收敛。[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。的最优解,就可以通过价值迭代来得到最优的。原创 2023-12-14 20:28:30 · 1738 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:价值迭代-[最优性原理]
中我们介绍了马尔可夫决策过程中的策略迭代,现在我们从另一个角度思考问题,动态规划的方法将优化问题分成两个部分。之后后继的状态的每一步都按照最优的策略去做,最后的结果就是最优的。[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.原创 2023-12-14 20:24:18 · 1439 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:策略迭代-[贝尔曼最优方程]
贝尔曼最优方程表明:最佳策略下的一个状态的价值必须等于在这个状态下采取最好动作得到的回报的期望。当马尔可夫决策过程满足贝尔曼最优方程的时候,整个马尔可夫决策过程已经达到最佳的状态。只有当整个状态已经收敛后,我们得到最佳价值函数后,贝尔曼最优方程才会满足。操作,我们就会得到更好的或者不变的策略,而不会使价值函数变差。当我们取让Q函数值最大化的动作对应的值就是当前状态的最佳的价值函数的值。Q学习是基于贝尔曼最优方程来进行的,当取Q函数值最大的状态。操作的时候,我们会得到一个单调的递增。原创 2023-12-12 20:20:21 · 1539 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:策略迭代-[基础知识]
算出状态价值函数后,我们会得到一个Q函数。然后进一步改进策略,得到一个改进的策略后,它还不是最佳的策略,我们再进行策略评估,又会得到一个新的价值函数。基于这个新的价值函数再进行Q函数的最大化,这样逐渐迭代,状态价值函数和策略就会收敛。我们先保证这个策略不变,然后估计它的价值,即给定当前的策略函数来估计状态价值函数。所以如下图(b)所示,在策略迭代里面,在初始化的时候,我们有一个初始化的状态价值函数。如下图所示,我们可以把Q函数看成一个Q表格(Q-table):横轴是它的所有状态,纵轴是它的可能的动作。原创 2023-12-12 20:19:38 · 1350 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:动态规划方法
当我们把它分解成递归的结构的时候,如果子问题的子状态能得到一个值,那么它的未来状态因为与子状态是直接相关的,我们也可以将之推算出来。最优子结构意味着,问题可以拆分成一个个的小问题,通过解决这些小问题,我们能够组合小问题的答案,得到原问题的答案,即最优的解。重叠子问题意味着,子问题出现多次,并且子问题的解决方案能够被重复使用,我们可以保存子问题的首次计算结果,在再次需要时直接使用。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。原创 2023-12-11 21:26:57 · 844 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:预测与控制
控制问题要做的就是,给定同样的条件,求出在所有可能的策略下最优的价值函数是什么,最优策略是什么。要强调的是,这两者的区别就在于,预测问题是给定一个策略,我们要确定它的价值函数是多少。而控制问题是在没有策略的前提下,我们要确定最佳的价值函数以及对应的决策方案。实际上,这两者是递进的关系,在强化学习中,我们通过解决预测问题,进而解决控制问题。如图下图(b)所示,现在,我们给定一个策略:在任何状态中,智能体的动作模式都是随机的,也就是上、下、左、右的概率均为。,计算它的价值函数,也就是计算每个状态的价值。原创 2023-12-11 21:26:05 · 1408 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:过程控制
策略评估是指给定马尔可夫决策过程和策略,我们可以估算出价值函数的值。本文将阐述如果我们只有马尔可夫决策过程,我们应该如何寻找最佳的策略,从而得到最佳价值函数(Optimal Value Function)的方法。V∗sπmaxVπs最佳价值函数是指,我们搜索一种策略π让每个状态的价值最大。V∗就是到达每一个状态,它的值的最大化情况。π∗sargπmaxVπs最佳策略使得每个状态的价值函数都取得最大值。原创 2023-12-06 20:32:51 · 1404 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:策略评估
很多时候有些环境是概率性的(Probabilistic),比如智能体在第6号状态,它选择往上走的时候,地板可能是滑的,然后它可能滑到第3号状态或者第1号状态,这就是有概率的转移。如上左图所示,在小网格世界中,智能体的策略函数直接给定了,它在每一个状态都是随机行走,即在每一个状态都是上、下、左、右行走,采取均匀的随机策略(Uniform Random Policy),即。我们再来看一个动态的例子,推荐斯坦福大学的一个网页,这个网页模拟了上式的单步更新的过程中,所有格子的状态价值的变化过程。原创 2023-12-06 20:32:06 · 1485 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:占用度量-[代码实现]
我们介绍了占用度量的基础知识,本文我们编写代码来近似估计占用度量。这里我们采用近似估计,即设置一个较大的采样轨迹长度的最大值,然后采样很多次,用状态动作对出现的频率估计实际概率。[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.原创 2023-12-05 18:28:24 · 1126 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:占用度量-[基础知识]
需要注意的是,理论上在计算该分布时需要交互到无穷步之后,但实际上智能体和马尔可夫决策过程的交互在一个序列中是有限的。这是因为对于同一个马尔可夫决策过程,不同策略会访问到的状态的概率分布是不同的。想象一下,在下图的马尔可夫决策过程中现在有一个策略,它的动作执行会使得智能体尽快到达终止状态。因此我们需要理解不同策略会使智能体访问到不同概率分布的状态这个事实,这会影响到策略的价值函数。以上提到的“合法”占用度量是指存在一个策略使智能体与马尔可夫决策过程交互产生的状态动作对被访问到的概率。,于是当智能体处于状态。原创 2023-12-05 18:27:43 · 2802 阅读 · 3 评论 -
深入理解强化学习——马尔可夫决策过程:蒙特卡洛方法-[代码实现]
可以看到用蒙特卡洛方法估计得到的状态价值和我们用马尔科夫奖励过程解析解得到的状态价值是很接近的。这得益于我们采样了比较多的序列,感兴趣的读者可以尝试修改采样次数,然后观察蒙特卡洛方法的结果。[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。然后我们通过该函数,用随机策略在下图的马尔可夫决策过程中随机采样几条序列。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。原创 2023-12-04 18:32:20 · 977 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:蒙特卡洛方法-[基础知识]
例如,在下图所示的正方形内部随机产生若干个点,细数落在圆中点的个数,圆的面积与正方形面积之比就等于圆中点的个数与正方形中点的个数之比。如果我们随机产生的点的个数越多,计算得到圆的面积就越接近于真实的圆的面积。在一条序列中,可能没有出现过这个状态,可能只出现过一次这个状态,也可能出现过很多次这个状态。还有一种选择是一条序列只计算一次回报,也就是这条序列第一次出现该状态时计算后面的累积奖励,而后面再次出现该状态时,该状态就被忽略了。计算回报的期望时,除了可以把所有的回报加起来除以次数,还有一种增量更新的方法。原创 2023-12-04 18:31:22 · 1231 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:备份图(Backup Diagram)
备份类似于自举之间的迭代关系,对于某一个状态,它的当前价值是与它的未来价值线性相关的。我们将与下图类似的图称为备份图(Backup Diagram)或回溯图,因为它们所示的关系构成了更新或备份操作的基础,而这些操作是强化学习方法的核心。当我们到达某一个状态后,再对空心圆圈节点进行加和,这样就把空心圆圈节点重新推回到当前时刻的Q函数。如下图所示,现在的根节点是Q函数的一个节点。的价值)备份到黑色的节点。第二层加和是对动作进行加和,得到黑色节点的价值后,再往上备份一层,就会得到根节点的价值,即当前状态的价值。原创 2023-11-28 19:26:58 · 1636 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:贝尔曼期望方程-[举例与代码实现]
于是,一个很自然的想法是:给定一个马尔可夫决策过程和一个策略,我们是否可以将其转化为一个马尔可夫奖励过程?3.5 节将介绍用蒙特卡洛方法来近似估计这个价值函数,用蒙特卡洛方法的好处在于我们不需要知道 MDP 的状态转移函数和奖励函数,它可以得到一个近似值,并且采样数越多越准确。根据价值函数的定义可以发现,转化前的马尔可夫决策过程的状态价值函数和转化后的马尔可夫奖励过程的价值函数是一样的。黑色实线箭头代表可以采取的动作,浅色小圆圈代表动作,需要注意的是,并非在每个状态都能采取所有动作,例如在状态。原创 2023-11-28 18:56:14 · 1507 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:贝尔曼期望方程-[基础知识]
我们可以把状态价值函数和动作价值函数拆解成两个部分:即时奖励和后续状态的折扣价值(Discounted Value of Successor State)。[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。上面两式就是是贝尔曼期望方程的另一种形式,其中上面两式中的下式说明了当前时刻的动作价值函数与未来时刻的动作价值函数之间的关联。[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.原创 2023-11-26 23:38:47 · 1785 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:动作价值函数
不同于马尔可夫奖励过程,在马尔可夫决策过程中,由于动作的存在,我们额外定义一个动作价值函数(Action-value Function)。[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.的价值等于在该状态下基于策略。原创 2023-11-23 19:17:43 · 958 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:状态价值函数
2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。其中,期望基于我们采取的策略。当策略决定后,我们通过对策略进行采样来得到一个期望,计算出它的价值函数。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.的状态价值函数(State-value Function),定义为从状态。原创 2023-11-23 19:17:10 · 918 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:策略
当一个策略是确定性策略(Deterministic Policy)时,它在每个状态时只输出一个确定性的动作,即只有该动作的概率为1,其他动作的概率为0;但此时的价值函数与策略有关,这意为着对于两个不同的策略来说,它们在同一个状态下的价值也很可能是不同的。这很好理解,因为不同的策略会采取不同的动作,从而之后会遇到不同的状态,以及获得不同的奖励,所以它们的累积奖励的期望也就不同,即状态价值不同。因为我们现在已知策略函数,也就是已知在每一个状态下,可能采取的动作的概率,所以我们就可以直接把动作进行加和,去掉。原创 2023-11-21 18:57:18 · 935 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:马尔可夫决策过程和马尔可夫过程/马尔可夫奖励过程的区别
在当前状态与未来状态转移过程中多了一层决策性,这是马尔可夫决策过程与之前的马尔可夫过程/马尔可夫奖励过程很不同的一点。》系列前面的文章讨论到的马尔可夫过程和马尔可夫奖励过程都是自发改变的随机过程,而如果有一个外界的“刺激”来共同改变这个随机过程,就有了马尔可夫决策过程(Markov Decision Process,MDP)。马尔可夫过程/马尔可夫奖励过程的状态转移是直接决定的。综上所述,相对于马尔可夫奖励过程,马尔可夫决策过程多了决策(决策是指动作),其他的定义与马尔可夫奖励过程的是类似的。原创 2023-11-21 18:54:20 · 800 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]
介绍了计算马尔可夫奖励过程价值的蒙特卡洛方法,同时我们也可以用动态规划的方法,一直迭代贝尔曼方程,直到价值函数收敛,我们就可以得到某个状态的价值。我们通过自举(Bootstrapping)的方法不停地迭代贝尔曼方程,当最后更新的状态与我们上一个状态的区别并不大的时候,更新就可以停止,我们就可以输出最新的。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。动态规划的方法基于后继状态价值的估计来更新现在状态价值的估计,如下文所示算法中的第3行用。原创 2023-11-20 18:59:19 · 897 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]
文章《[深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[贝尔曼方程]]](https://machinelearning.blog.csdn.net/article/details/134407229)》介绍了计算马尔可夫奖励过程价值的解析方法,但解析解的计算复杂度是。如下文所示,蒙特卡洛方法就是当得到一个马尔可夫奖励过程后,我们可以从某个状态开始,把小船放到状态转移矩阵里面,让它“随波逐流”,这样就会产生一个轨迹。产生一个轨迹之后,就会得到一个奖励,那么直接把折扣的奖励即回报。原创 2023-11-20 18:57:50 · 530 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[贝尔曼方程]
求解较大规模的马尔可夫奖励过程中的价值函数时,可以使用动态规划(Dynamic Programming)算法、蒙特卡洛方法(Monte-Carlo Method)和时序差分(Temporal Difference),这些方法将在后面的文章。[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。上式就是马尔可夫奖励过程中的贝尔曼方程(Bellman Equation),对每一个状态都成立。,同理,将奖励函数写成一个列向量。原创 2023-11-19 17:26:22 · 462 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[价值函数]
在马尔可夫奖励过程中,一个状态的期望回报(即从这个状态出发的未来累积奖励的期望)被称为这个状态的价值(Value)。所有状态的价值就组成了价值函数(Value Function),价值函数的输入为某个状态,输出为这个状态的价值。取了一个期望,期望就是从这个状态开始,我们可能获得多大的价值。所以期望也可以看成未来可能获得奖励的当前价值的表现,就是当我们进入某一个状态后,我们现在有多大的价值。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。原创 2023-11-14 20:20:14 · 953 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[回报]
在马尔可夫过程的基础上加入奖励函数和折扣因子,就可以得到马尔可夫奖励过程(Markov Reward Process)。[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019。在下图中,我们在马尔可夫过程例子的基础上添加奖励函数,构建成一个马尔可夫奖励过程。[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022。开始,直到终止状态时,所有奖励的衰减之和称为回报。原创 2023-11-14 19:35:28 · 864 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:马尔可夫过程和马尔科夫链
从某个状态出发,到达其他状态的概率和必须为1,即状态转移矩阵的每一行的和为1。状态转移矩阵类似于条件概率(Conditional Probability),它表示当我们知道当前我们在状态。给定一个马尔可夫过程,我们就可以从某个状态出发,根据它的状态转移矩阵生成一个状态序列(Episode),这个步骤也被叫做采样(sampling),生成这些序列的概率和状态转移矩阵有关。马尔可夫链是最简单的马尔可夫过程,其状态是有限的。例如,下图里面有4个状态,这4个状态在。是我们的当前状态,它有0.3的概率转移到。原创 2023-11-13 20:30:20 · 855 阅读 · 0 评论 -
深入理解强化学习——马尔可夫决策过程:随机过程和马尔可夫性质
下图介绍了强化学习里面智能体与环境之间的交互,智能体得到环境的状态后,它会采取动作,并把这个采取的动作返还给环境。环境得到智能体的动作后,它会进入下一个状态,把下一个状态传给智能体。在强化学习中,智能体与环境就是这样进行交互的,这个交互过程可以通过马尔可夫决策过程来表示,所以马尔可夫决策过程是强化学习的基本框架。》系列文章将介绍马尔可夫决策过程。与多臂老虎机问题不同,马尔可夫决策过程包含状态信息以及状态之间的转移机制。原创 2023-11-13 19:54:50 · 663 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:知识总结
对于任何可能的动作,我们都可以计算出它对应的即时收益的分布,以及相应的动作价值的后验分布。假设问题的视界有1000步,则可以考虑所有可能的动作,所有可能的收益,所有可能的下一个动作,所有下一个收益等等,依此类推到全部1000步。所以我们总结了一个完整的精简的学习曲线,展示了每种算法和参数超过1000步的平均收益值,这个值与学习曲线下的面积成正比。需要注意的是,轴上参数值的变化是2的倍数,并以对数坐标表示。所有这些算法都是相当不敏感的,它们在一系列的参数值上表现得很好,这些参数值的大小是一个数量级的。原创 2023-11-12 19:56:46 · 358 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:上下文相关的赌博机(关联搜索任务)
也许我们面对的是一个真正的老虎机,它的外观颜色与它的动作价值集合一一对应,动作价值集合改变的时候,外观颜色也会改变。那么,现在你可以学习一些任务相关的操作策略,例如,用你所看到的颜色作为信号,把每个任务和该任务下最优的动作直接关联起来,比如,如果为红色,则选择1号臂;这是一个关联搜索任务的例子,因为它既涉及采用试错学习去搜索最优的动作,又将这些动作与它们表现最优时的情境关联在一起`:关联搜索任务现在通常在文献中被称为上下文相关的赌博机。在这些任务中,当任务是平稳的时候,学习器会试图寻找一个最佳的动作;原创 2023-11-12 19:56:15 · 315 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:梯度赌博机算法的数学证明
上文我们已经证明了梯度赌博机算法的期望更新与期望收益的梯度是相等的,因此该算法是随机梯度上升算法的一种。但是事实上,前面的更新公式采用期望价值时是等价的,即随机梯度上升方法的一个实例。回想一下,我们的计划是把性能指标的梯度写为某个东西的期望,这样我们就可以在每个时刻进行采样,然后再进行与采样样本成比例地更新。注意,上面的公式其实是一个“求期望"的式子:对随机变量所有可能的取值进行函数求和,然后乘以对应取值的概率。的变化,一些动作的概率会增加或者减少,但是这些变化的总和为0,因为概率之和必须是1。原创 2023-11-09 19:48:19 · 1024 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:梯度赌博机算法的基础知识
偏好函数越大,动作就越频繁地被选择,但偏好函数的概念并不是从“收益"的意义上提出的。所有收益的这种变化对梯度赌博机算法没有任何影响,因为收益基谁项计它可以马上适应新的收益水平。到目前为止,我们已经探讨了评估动作价值的方法,并使用这些估计值来选择动作。如果收益高于它,那么在未来选择动作的概率就会增加,反之概率就会降低,未选择的动作被选择的概率上升。下图展示了在一个10臂测试平台问题的变体上采用梯度赌博机算法的结果,在这个问题中,它们真实的期望收益是按照平均值为。),所以每个动作被选择的概率是相同的。原创 2023-11-09 18:39:35 · 1163 阅读 · 1 评论 -
深入理解强化学习——多臂赌博机:基于置信度上界的动作选择
贪心算法会尝试选择非贪心的动作,但是这是一种盲目的选择,因为它不大会去选择接近贪心或者不确定性特别大的动作。在非贪心动作中,最好是根据它们的潜力来选择可能事实上是最优的动作,这就要考虑到它们的估计有多接近最大值,以及这些估计的不确定性。自然对数的使用意味着随着时间的推移,增加会变得越来越小,但它是无限的。所有动作最终都将被选中,但是随着时间的流逝,具有较低价值估计的动作或者已经被选择了更多次的动作被选择的频率较低。一个难题是要处理大的状态空间,目前还没有已知的实用方法利用UCB动作选择的思想。原创 2023-11-07 19:13:50 · 563 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:乐观初始值
刚开始乐观初始化方法表现得比较糟糕,因为它需要试探更多次,但是最终随着时间的推移,试探的次数减少,它的表现也变得更好。我们认为这是一个简单的技巧,在平稳问题中非常有效,但它远非鼓励试探的普遍有用的方法。例如,它不太适合非平稳问题,因为它试探的驱动力天生是暂时的。对于采样平均法也是如此,它也将时间的开始视为一种特殊的事件,用相同的权重平均所有后续的收益。缺点是,如果不将它们全部设置为0,则初始估计值实际上变成了一个必须由用户选择的参数集。比如一个10臂的测试平台,我们替换掉原先的初始值0,将它们全部设为。原创 2023-11-07 18:50:53 · 467 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:非平稳问题
在后面一种情况下,第二个条件无法满足,说明估计永远无法完全收敛,而是会随着最近得到的收益而变化。正如我们前面提到的,在非平稳环境中这是我们想要的,而且强化学习中的问题实际上常常是非平稳的。此外,符合上述条件的步长参数序列常常收敛得很慢,或者需要大量的调试才能得到一个满意的收敛率。到目前为止我们讨论的取平均方法对平稳的赌博机问题是合适的,即收益的概率分布不随着时间变化的赌博机问题。在这种情形下,给近期的收益赋予比过去很久的收益更高的权值就是一种合理的处理方式。小于1,因此赋予的权值随着相隔次数的增加而递减。原创 2023-11-06 20:32:25 · 323 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:增量式实现
这种简明的实现需要维护所有收益的记录,然后在每次需要估计价值时进行计算。每增加一次收益就需要更多的内存存储和更多的计算资源来对分子求和,但这确实不是必须的。为了计算每个新的收益,很容易设计增量式公式以小而恒定的计算来更新平均值。至今我们讨论的动作—价值方法都把动作价值作为观测到的收益的样本均值来估计。下面我们探讨如何才能以一种高效的方式计算这些均值,尤其是如何保持常数级的内存需求和常数级的单时刻计算量。值得注意的是,上述增量式方法中的“步长"(Stepsize)会随着时间而变化。原创 2023-11-06 19:52:57 · 577 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:10臂测试平台
在这种情况下,即使在有确定性的情况下,试探也是需要的,这是为了确认某个非贪心的动作不会变得比贪心动作更好。即使每一个单独的子任务都是平稳而且确定的,学习者也会面临一系列像赌博机一样的决策任务,每个子任务的决策随着学习的推进会有所变化,这使得智能体的整体策略也会不断变化。在另外三分之二的动作中,最初采样得到的动作非常不好,贪心方法无法跳出来找到最优的动作。上部的图显示了期望的收益随着经验的增长而增长。比方说,假设收益的方差更大,不是1而是10,由于收益的噪声更多,所以为了找到最优的动作需要更多次的试探,而。原创 2023-11-06 18:55:25 · 404 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:动作一价值方法
我们使用这些价值的估计来进行动作的选择,这一类方法被统称为“动作一价值方法"。如前文所述,动作的价值的真实值是选择这个动作时的期望收益。我们将这种估计动作价值的方法称为采样平均方法,因为每一次估计都是对相关收益样本的平均。当然,这只是估计动作价值的一种方法,而且不一定是最好的方法。选择的贪心动作总是利用当前的知识最大化眼前的收益。最简单的动作选择规则是选择具有最高估计值的动作,即前一节所定义的贪心动作。这类方法的一个优点是,如果时刻可以无限长,则每一个动作都会被无限次采样,从而确保所有的。原创 2023-11-05 21:01:42 · 300 阅读 · 0 评论 -
深入理解强化学习——多臂赌博机:基础知识
如果我们持续对动作的价值进行估计,那么在任一时刻都会至少有一个动作的估计价值是最高的,我们将这些对应最高估计价值的动作称为贪心的动作。当你从这些动作中选择时,我们称此为开发当前你所知道的关于动作的价值的知识。单纯的“评估性反馈"只能表明当前采取的动作的好坏程度,但却无法确定当前采取的动作是不是所有可能性中最好的或者最差的。另一方面,单纯的“指导性反馈"表示的是应该选择的正确动作是什么,并且这个正确动作和当前实际采取的动作无关,这是有监督学习的基本方式,其被广泛应用于模式分类、人工神经网络和系统辨识等。原创 2023-11-02 18:53:36 · 347 阅读 · 0 评论 -
深入理解强化学习——强化学习的历史:时序差分学习
我们的工作与Minsky的“迈向人工智能"论文和Samuel的跳棋程序的联系是后来才被认识到的。正如我们所讨论的,在Minsky和Samuel发表成果之后的十年,在试错学习领域很少有计算性的研究工作,而时序差分学习领域完全没有计算性的工作。他和Barto优化了这些想法并基于时序差分学习建立了一个经典条件反射的心理学模型,之后又有一些其他的有影响力的基于时序差分学习的经典条件反射的心理学模型跟进。这个领域的兴起主要是由于许多研究者发现了时序差分算法的行为和大脑中产生多巴胺的神经元的活动的神奇的相似性。原创 2023-10-31 19:03:39 · 510 阅读 · 0 评论