强化学习面试题目

最新推荐文章于 2024-08-06 09:52:45 发布

小郁同学

最新推荐文章于 2024-08-06 09:52:45 发布

阅读量579

点赞数 1

分类专栏：强化学习工作准备

原文链接：https://zhuanlan.zhihu.com/p/335624695

版权

强化学习工作准备专栏收录该内容

4 篇文章 6 订阅

订阅专栏

文章目录

前言
RL相关面试题：
DL相关

前言

本篇文章内容转载自知乎大佬回答（链接）
网址：https://zhuanlan.zhihu.com/p/335624695

博主也是RL新手，目前一边看论文，一边为找工作做一些准备工作。这是我的第一篇转载的文章，转载主要是为了自身的查找方便，并且准备在之后查资料对这些问题做出个人的解答。如果这些题目对你有帮助，请一定要给知乎原作者点个大大的赞！！！！

RL相关面试题：

介绍下MC和TD的不同
介绍下对DQN的了解，对Q值的理解，DQN是off-policy还是on-policy算法？
了解哪些DQN的改进技术？
DDQN解决了什么问题，为什么产生了过估计？
DuelingDQN的的改进以及好处是什么？
PER中怎么改变损失函数的定义？
PER以什么评判优先级？对PER的改进有哪些？
分布式DQN了解吗？
介绍下PG算法。
为什么PG方法必须是on-policy的？
PG方法有什么问题？
On-policy和off-policy的区别？
AC算法和REINFORCE有什么区别？AC算法的好处是什么？
Baseline为什么可以直接减去一个值而对策略迭代没什么影响？
介绍下重要性采样
TRPO的优化目标是什么？
TRPO求逆矩阵的方法是什么？
PPO相比于TRPO的改进是什么？
PPO处理连续动作和离散动作的区别？
PPO的actor损失函数怎么算？
Advantage大于0或者小于0时clip的范围？
有没有用过分布式ppo？一般怎么做底层通信？
Vtrace算法了解吗？IMPALA相比于A3C的优势？
GAE了解吗？两个参数哪个控制偏差哪个控制方差？
详细介绍下GAE怎么计算的。
常用的探索方法有哪些？
知道softQ吗？
强化学习做过图像输入的吗？
自博弈算法完全随机开始和有预训练模型的区别？
介绍纳什均衡
介绍蒙特卡洛搜索树

DL相关

对深度学习了解如何？
介绍神经网络：CNN和RNN等
CNN和RNN分别适合什么场景？
介绍下LSTM
BN在训练和测试时有什么不同？均值和方差怎么更新的？
BN的参数是可学习吗？
GBDT叶子结点的切分准则？
介绍熟悉的一种机器学习算法？
三通道CNN的卷积核参数计算？
说一下常用的激活函数，sigmoid的计算公式？
relu效果比sigmoid好的原因是什么？
softmax的计算公式是什么？
频率学派和贝叶斯学派的区别？
避免过拟合的方法有哪些?
了解过transformer吗？
对优化器了解的怎么样，介绍下主要的发展脉络？

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
强化学习面试题目

文章目录前言RL相关面试题：DL相关前言本篇文章内容转载自知乎大佬回答（链接）网址：https://zhuanlan.zhihu.com/p/335624695博主也是RL新手，目前一边看论文，一边为找工作做一些准备工作。这是我的第一篇转载的文章，转载主要是为了自身的查找方便，并且准备在之后查资料对这些问题做出个人的解答。如果这些题目对你有帮助，请一定要给知乎原作者点个大大的赞！！！！RL相关面试题：介绍下MC和TD的不同介绍下对DQN的了解，对Q值的理解，DQN是off-policy还是o
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。