DRL(四)——Value Function

最新推荐文章于 2023-07-25 15:59:57 发布

Mia_compiling

最新推荐文章于 2023-07-25 15:59:57 发布

阅读量907

点赞数

分类专栏： DRL

本文链接：https://blog.csdn.net/qq_41796745/article/details/105956591

版权

感觉这一讲的内容大多都在复习之前我在RL里学过的内容，而且我发现，相比于David Silver 的强化学习内容，这个伯克利的DRL课程顺序刚好相反。RL是由表格型开始，讲了V(s) 和 Q(s, a)，之后再讲的Function approximator，而DRL是先Policy Gradient 然后才提到Q Function。

虽然内容都差不多，但是我还没明白不同的顺序是否侧重点不同，而两者的侧重点又分别是什么。感觉自己对于强化学习的脉络还是没有很好的理清楚。希望之后慢慢会有更深刻的理解吧。

还有，最近跑了一下DQN的代码（基于Pytorch），我却觉得它的学习并不高效。而Actor Critic的方法就像老师说的那样，很大可能不收敛。我跑了几个程序，包括MountainCar、Cartpole 的DQN算法、AC算法，有些学着学着就不动弹了，尤其是MountainCar，还不是很清楚……

其实学了这么久，还是感觉毫无进展……真的有点难啊

概括

这一讲主要是在讲Value Based 方法，就是使用 Q Function 和 V Function。
前面的章节一直在讲policy based方法，就是根据既定的或者是随机的策略，不断优化策略，而这一讲讲述了不根据策略，而是根据Value Function的值来产生策略，这个策略可以是基于Value贪心的：
在这里插入图片描述

也可以是 Epsilon greedy 的（利用 ε）：
在这里插入图片描述
还有一种叫做Boltzmann Exploration：

从policy gradient 过渡到了 policy iteration，其中穿插了Dynamic Programming，Fitted Value Iteration, 最终到了 Fitted Q Iteration，这个Fitted Q Iteration 不需要知道状态转移概率(transition probabilities)。

break前总结，Value-Based Methods 就是，不需要去得到一个确切的策略，只需要获得Value Function：If we have Value Function, we have a policy.

从 Fitted Value Iteration 到 Fitted Q Iteration

先看看Fitted Value Iteration，是这样的：
在这里插入图片描述
但是第一步需要知道状态间的转移概率：也就是说需要知道采取了某个action之后下一个状态的概率

这样的话，如果我们不知道环境的模型，model-free 情况下，就不是很适合了，所以就需要使用Q():

直接让下一状态的 Value期望值等于最大的 Q 值，这样就不需要去模拟不同action产生的value，因为实际情况中我们不太可能一个状态下使用多个action来看看不同的结果，更可能的情况是某一个state可能只经历一次。所以使用Q就更加有优势了。
在这里插入图片描述

众所周知 fitted Q-iteration 是离轨的

为什么呢？感觉这个问题我已经听不同的老师讲过一遍了，这个问题是每个老师都会提及的。
因为使用Q Function中，不同状态采取不同action得到的下一个状态这之间的transition都是与当前的 policy Π 独立的：

个人感觉这没有说的很清楚，于是又看了别人的理解，

书上的解释：In this case, the learned action-value function, Q, directly approximates q*, the optimal action-value function, independent of the policy being followed.
理解：在式子中用于更新的 $\arg~max~Q(S',a')$ ，下一步真正执行的动作却不一定是 $\arg~max~Q(S',a')$

最低0.47元/天解锁文章

Mia_compiling

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DRL(四)——Value Function

感觉这一讲的内容大多都在复习之前我在RL里学过的内容，而且我发现，相比于David Silver 的强化学习内容，这个伯克利的DRL课程顺序刚好相反。RL是由表格型开始，讲了V(s) 和 Q(s, a)，之后再讲的Function approximator，而DRL是先Policy Gradient 然后才提到Q Function。虽然内容都差不多，但是我还没明白不同的顺序是否侧重点不同，而两...
复制链接

扫一扫