区分Model-free和Model-based方法

最新推荐文章于 2024-05-27 20:00:41 发布

Vic_Hao

最新推荐文章于 2024-05-27 20:00:41 发布

阅读量2.1k

点赞数

分类专栏：强化学习

强化学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

强化学习方法分为Model-free和Model-based方法，那么这两种方法的区别在哪：
首先我们定义强化学习中的马尔可夫决策过程MDP，用四元组表示 <S,A,R,T> <script type="math/tex" id="MathJax-Element-35"> </script>：

我们的目标是：找到一个策略π能够最大化我们的对未来奖励的期望 $E(∑nt=0γtRt)$ ，Rt为t时刻的奖励，γ为折扣因子，代表距离现在越遥远的奖励不如现在的奖励大。

现在，如果我们知道MDP中的所有东西，那么我们可以不用在环境中做出动作便可直接求解，我们通常称在执行动作前作出的决策为规划(planning)，那么一些经典的规划算法能够直接求解MDP问题，包括值迭代和策略迭代等。

但是在强化学习中，agent却不是那么容易知晓MDP中所有的元素的，比如，agent也许不会知道环境将会如何改变当它执行了一个动作后（状态转移概率函数T），也不会知道它执行这个动作获得即时的奖励将会是多少（奖励函数R），agent能做的就是：根据自己已有的策略π选择关于当前状态s下自己认为好的动作a，执行此动作给环境，观察环境给出的反馈r和下一个状态s′，并根据这个反馈r调整更新自己的策略π，这样反复迭代，直到找到一种最优的策略π′能够最大限度获得正反馈。

那么，当agent不知道转移概率函数T和奖励函数R，它是如何找到一个好的策略的呢，当然会有很多方法：

Model-based RL

一种方法就是Model-based方法，让agent学习一种模型，这种模型能够从它的观察角度描述环境是如何工作的，然后利用这个模型做出动作规划，具体来说，当agent处于s1状态，执行了a1动作，然后观察到了环境从s1转化到了s2以及收到的奖励r, 那么这些信息能够用来提高它对T(s2|s1,a1)和R(s1,a1)的估计的准确性，当agent学习的模型能够非常贴近于环境时，它就可以直接通过一些规划算法来找到最优策略，具体来说：当agent已知任何状态下执行任何动作获得的回报，即R(st,at)已知，而且下一个状态也能通过T(st+1|st,at)被计算，那么这个问题很容易就通过动态规划算法求解，尤其是当T(st+1|st,at)＝1时，直接利用贪心算法，每次执行只需选择当前状态st下回报函数取最大值的动作(maxaR(s,a|s=st))即可，这种采取对环境进行建模的强化学习方法就是Model-based方法。

Model-free RL

但是，事实证明，我们有时候并不需要对环境进行建模也能找到最优的策略，一种经典的例子就是Q-learning，Q-learning直接对未来的回报Q(s,a)进行估计，Q(sk,ak)表示对sk状态下执行动作at后获得的未来收益总和E(∑nt=kγkRk)的估计，若对这个Q值估计的越准确，那么我们就越能确定如何选择当前st状态下的动作：选择让Q(st,at)最大的at即可，而Q值的更新目标由Bellman方程定义，更新的方式可以有TD（Temporal Difference）等，这种是基于值迭代的方法，类似的还有基于策略迭代的方法以及结合值迭代和策略迭代的actor-critic方法，基础的策略迭代方法一般回合制更新（Monte Carlo Update），这些方法由于没有去对环境进行建模，因此他们都是Model-free的方法。

所以，如果你想查看这个强化学习算法是model-based还是model-free的，你就问你自己这个问题：在agent执行它的动作之前，它是否能对下一步的状态和回报做出预测，如果可以，那么就是model-based方法，如果不能，即为model-free方法。

转载自：https://blog.csdn.net/ppp8300885/article/details/78524235

Vic_Hao

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
区分Model-free和Model-based方法

强化学习方法分为Model-free和Model-based方法，那么这两种方法的区别在哪：首先我们定义强化学习中的马尔可夫决策过程MDP，用四元组表示&lt;S,A,R,T&gt;&lt;S,A,R,T&gt;：我们的目标是：找到一个策略π能够最大化我们的对未来奖励的期望E(∑nt=0γtRt)E(∑nt=0γtRt)E(∑nt=0γtRt)，Rt为t时刻的奖励，γ为折扣因子，代表距离现...
复制链接

扫一扫