DRL(四)——Value Function

感觉这一讲的内容大多都在复习之前我在RL里学过的内容,而且我发现,相比于David Silver 的强化学习内容,这个伯克利的DRL课程顺序刚好相反。RL是由表格型开始,讲了V(s) 和 Q(s, a),之后再讲的Function approximator,而DRL是先Policy Gradient 然后才提到Q Function。

虽然内容都差不多,但是我还没明白不同的顺序是否侧重点不同,而两者的侧重点又分别是什么。感觉自己对于强化学习的脉络还是没有很好的理清楚。希望之后慢慢会有更深刻的理解吧。

还有,最近跑了一下DQN的代码(基于Pytorch),我却觉得它的学习并不高效。而Actor Critic的方法就像老师说的那样,很大可能不收敛。我跑了几个程序,包括MountainCar、Cartpole 的DQN算法、AC算法,有些学着学着就不动弹了,尤其是MountainCar,还不是很清楚……

其实学了这么久,还是感觉毫无进展……真的有点难啊

概括

这一讲主要是在讲Value Based 方法,就是使用 Q Function 和 V Function。
前面的章节一直在讲policy based方法,就是根据既定的或者是随机的策略,不断优化策略,而这一讲讲述了不根据策略,而是根据Value Function的值来产生策略,这个策略可以是基于Value贪心的:
在这里插入图片描述

也可以是 Epsilon greedy 的(利用 ε):
在这里插入图片描述
还有一种叫做Boltzmann Exploration:
在这里插入图片描述
从policy gradient 过渡到了 policy iteration,其中穿插了Dynamic Programming,Fitted Value Iteration, 最终到了 Fitted Q Iteration,这个Fitted Q Iteration 不需要知道状态转移概率(transition probabilities)。

break前总结,Value-Based Methods 就是,不需要去得到一个确切的策略,只需要获得Value Function:If we have Value Function, we have a policy.

从 Fitted Value Iteration 到 Fitted Q Iteration

先看看Fitted Value Iteration,是这样的:
在这里插入图片描述
但是第一步需要知道状态间的转移概率:也就是说需要知道采取了某个action之后下一个状态的概率
在这里插入图片描述
这样的话,如果我们不知道环境的模型,model-free 情况下,就不是很适合了,所以就需要使用Q():
在这里插入图片描述
直接让下一状态的 Value期望值 等于最大的 Q 值,这样就不需要去模拟不同action产生的value,因为实际情况中我们不太可能一个状态下使用多个action来看看不同的结果,更可能的情况是某一个state可能只经历一次。所以使用Q就更加有优势了。
在这里插入图片描述

众所周知 fitted Q-iteration 是离轨的

为什么呢?感觉这个问题我已经听不同的老师讲过一遍了,这个问题是每个老师都会提及的。
因为使用Q Function中,不同状态采取不同action得到的下一个状态这之间的transition都是与当前的 policy Π 独立的:

个人感觉这没有说的很清楚,于是又看了别人的理解,

  • 书上的解释:In this case, the learned action-value function, Q, directly approximates q*, the optimal action-value function, independent of the policy being followed.
  • 理解:在式子中用于更新的 arg ⁡   m a x   Q ( S ′ , a ′ ) \arg~max~Q(S',a') arg max Q(S,a),下一步真正执行的动作却不一定是 arg ⁡   m a x   Q ( S ′ , a ′ ) \arg~max~Q(S',a') arg max Q(S
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值