【重磅总结】170道强化学习面试题目汇总，助力实验室RLer冲刺求职季！

深度强化学习实验室

于 2021-08-11 08:37:38 发布

阅读量2k

点赞数 2

文章标签：算法强化学习深度学习人工智能 deep learning

原文链接：http://deeprl.neurondance.com/d/376

版权

深度强化学习实验室

官网：http://www.neurondance.com/

论坛：http://deeprl.neurondance.com/

问题汇总

蒙特卡洛、TD、动态规划的关系？
DQN的几个变种以及各自解决了那些问题？
深度强化学习中的DQN和A3C区别与联系？
策略梯度的推导过程？
策略梯度和actor-critic的关系与对比？
A3C和DDPG区别和共同点？
value-based和policy-based关系？
off-policy和on-policy的好与坏？
表格式到函数近似的理解？
Actor-Critic的优点？
Actor和Critic两者的区别？
advantage(优势函数)推导过程，如何计算？
DPG、DDPG、D3PG、D4PG之间的区别？
强化学习是什么？和有监督学习的异同？SL靠的是样本标签训练模型，RL依靠的是什么？
强化学习用来解决什么问题？
强化学习的损失函数是什么？
为什么最优值函数就等同最优策略
强化学习和动态规划的关系；
简述TD算法
蒙特卡洛和时间差分的对比：MC和TD分别是无偏估计吗，为什么？MC、TD谁的方差大，为什么？
简述Q-Learning，写出其Q(s,a)更新公式
简述值函数逼近的想法？
RL与监督学习和无监督学习的区别
RL不同于其它学习算法的原因?
Model-based和model-free的区别？
确定性策略和随机性策略的区别与联系？
on-policy 和off-policy的区别与联系？
重要性采样的推导过程、作用？
Q-learning是off-policy的方法，为什么不使用重要性采样？

...........

160. 写出用第n步的值函数更新当前值函数的公式（1-step，2-step，n-step的意思）。当n的取值变大时，期望和方差分别变大、变小？

161. TD(λ)方法：当λ=0时实际上与哪种方法等价，λ=1呢？

162. 为什么Policy中输出的动作需要sample，而不是直接使用呢？

163. 是否用某种DRL算法玩过Torcs游戏？具体怎么解决？

164. 为什么连续动作环境下使用DDPG的表现还没有直接动作离散化后Q-learning表现好？

165. PPO算法中的损失函由那些组成？

166. 深度强化学习中奖励函数如何设置？如何Reward Shapping？

167. 你在强化学习模型调试中，有哪些调优技巧？

168. 简述PPO、DPPO算法？

169. 离散action和连续action在处理上有什么相似和不同的地方？

170. Inverse RL 能否解决奖励问题，如何解决的？

完整版链接：http://deeprl.neurondance.com/d/376-170

参考文献

[1]. https://zhuanlan.zhihu.com/p/52143798
[2]. https://mp.weixin.qq.com/s/R6eFiv3Iczli2nNCfOt6gg
[3]. https://github.com/NeuronDance/DeepRL/blob/master/DRL-Interviews/drl-interview.md
[4]. https://my.oschina.net/u/4339481/blog/4498611

完整版请点击左下角“阅读原文“

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。