An Casual Overview of Reinforcement Learning

本文概述了强化学习的基本概念,包括策略迭代、Q学习、混合方法、模型基础与模型自由,以及稀疏奖励、分层强化学习、模仿学习等专题。探讨了On-Policy与Off-Policy的区别,强调了Q-Learning的Off-Policy性质,以及在训练策略中如何选择。还介绍了Policy Gradient、DQN等算法,并讨论了模型基础和模型自由强化学习的差异,以及未来的研究方向,如多智能体系统。
摘要由CSDN通过智能技术生成

[update 20200712]

OpenAI的网站是很好的reference:spinningup


Plan

  1. 看完李宏毅RL视频
  2. 开始one by one implementation,based on openai tips
  3. At the mean time, master pytorch/tf and deep learning basics.
  4. When have time, keep an eye on the research frontier

 


强化学习概览

This overview is largely based on this article: https://medium.com/@SmartLabAI/reinforcement-learning-algorithms-an-intuitive-overview-904e2dff5bbc.

On-Policy vs Off-Policy

[update 0710] 看过李宏毅DRL视频后意识到,基于TD的Q-learning中的replay buffer跟on-off policy的关系主要是分布意义的。因为buffer里面的tuple并不是trajectory而是experience,跟当前在train哪个policy无关。但是整个buffer中tuple的分布,与使用当前policy去collect data得到的数据分布是不一样的,再加上从replay buffer sample的时候一般是uniformly,所以replay buffer如果非要去对应的话,对应的是off policy。针对MC的trajectory,如果用pi产生的traj去train pi',那么就更加是off policy的范畴。

[source:https://www.quora.com/Why-is-Q-Learning-deemed-to-be-off-policy-learning]

主要判断,在更新Q时,Q所评估的policy跟目前与环境互动的policy是否是同一个。在Sarsa中是的,在Q-learning中,Q的update本质是在评估\pi^*而非当前\pi.涉及到的Q(s',a')中的a'是否由当前actor根据s'得出,抑或是一种approximation like the max function in q-learning. 在使用replay-buffer的情况下,或者a'由target actor生成的情况下,称为off-policy。否则是on-policy。这是我个人浏览了很多信息后,目前的理解[update 0413]见下图,目前有了新的理解:remember Qfunction是基于TD的,前后action是有顺序关系的。换句话说,train Q的时候,需要知道,是Q(?)跟当前的Q差了一个r。这时,如果此处的?与当前policy应当输出的action相符,说明我们想要把Q 按照当前policy去train,所以是on policy。否则的话,如Sarsa,当前policy给出的是epsilon-greedy choice但是train Q的时候假定下一步是totally greedy的,所以Q与当前policy不符合,所以是off。

涉及到replay buf时候

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值