![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习工作准备
文章平均质量分 84
强化学习相关的面试题目和基础知识
小郁同学
深度强化学习爱好者,算法路上的前行者。一直在寻找问题,一直也在解决问题。欢迎联系我,进行交流与讨论。
展开
-
DQN的几个变种以及各自解决的问题
参考资料:李宏毅深度强化学习课程:https://www.bilibili.com/video/BV1UE411G78S?p=7知乎专栏:https://zhuanlan.zhihu.com/p/336723691原创 2021-09-28 15:56:42 · 2355 阅读 · 0 评论 -
蒙特卡洛、TD、动态规划的关系
动态规划动态规划是在已知环境(转移概率和奖励函数)的情况下,采用价值迭代/策略迭代的方式求解强化学习问题的方法。基于策略π\piπ的价值函数定义为:即,给定起始状态和根据策略π\piπ采取动作时的累计奖励期望。价值迭代:采用Bellman等式进行更新价值函数经过多轮迭代,最终收敛至最优价值函数策略迭代:依据价值函数选择累计奖励最大的动作策略经过多轮迭代,最终收敛至最优策略蒙特卡洛方法(Monte-Carlo methods,MC)MC方法值得是一类依赖于重复随机采样获得数值结果的计原创 2021-09-27 15:57:53 · 1276 阅读 · 1 评论 -
深度强化学习面试题汇总
转载自【深度强化学习面试】170道问题全面汇总蒙特卡洛、TD、动态规划的关系?DQN的几个变种以及各自解决了那些问题?深度强化学习中的DQN和A3C区别与联系?策略梯度的推导过程?策略梯度和actor-critic的关系与对比?A3C和DDPG区别和共同点?value-based和policy-based关系?off-policy和on-policy的好与坏?表格式到函数近似的理解?Actor-Critic的优点?Actor和Critic两者的区别?advantage(优势函数)推转载 2021-08-11 11:34:43 · 1519 阅读 · 1 评论 -
强化学习面试题目
文章目录前言RL相关面试题:DL相关前言本篇文章内容转载自知乎大佬回答(链接)网址:https://zhuanlan.zhihu.com/p/335624695博主也是RL新手,目前一边看论文,一边为找工作做一些准备工作。这是我的第一篇转载的文章,转载主要是为了自身的查找方便,并且准备在之后查资料对这些问题做出个人的解答。如果这些题目对你有帮助,请一定要给知乎原作者点个大大的赞!!!!RL相关面试题:介绍下MC和TD的不同介绍下对DQN的了解,对Q值的理解,DQN是off-policy还是o转载 2021-04-19 22:36:42 · 554 阅读 · 1 评论