强化学习面试题目

前言

本篇文章内容转载自知乎大佬回答(链接
网址:https://zhuanlan.zhihu.com/p/335624695

博主也是RL新手,目前一边看论文,一边为找工作做一些准备工作。这是我的第一篇转载的文章,转载主要是为了自身的查找方便,并且准备在之后查资料对这些问题做出个人的解答。如果这些题目对你有帮助,请一定要给知乎原作者点个大大的赞!!!!

RL相关面试题:

  1. 介绍下MC和TD的不同
  2. 介绍下对DQN的了解,对Q值的理解,DQN是off-policy还是on-policy算法?
  3. 了解哪些DQN的改进技术?
  4. DDQN解决了什么问题,为什么产生了过估计?
  5. DuelingDQN的的改进以及好处是什么?
  6. PER中怎么改变损失函数的定义?
  7. PER以什么评判优先级?对PER的改进有哪些?
  8. 分布式DQN了解吗?
  9. 介绍下PG算法。
  10. 为什么PG方法必须是on-policy的?
  11. PG方法有什么问题?
  12. On-policy和off-policy的区别?
  13. AC算法和REINFORCE有什么区别?AC算法的好处是什么?
  14. Baseline为什么可以直接减去一个值而对策略迭代没什么影响?
  15. 介绍下重要性采样
  16. TRPO的优化目标是什么?
  17. TRPO求逆矩阵的方法是什么?
  18. PPO相比于TRPO的改进是什么?
  19. PPO处理连续动作和离散动作的区别?
  20. PPO的actor损失函数怎么算?
  21. Advantage大于0或者小于0时clip的范围?
  22. 有没有用过分布式ppo?一般怎么做底层通信?
  23. Vtrace算法了解吗?IMPALA相比于A3C的优势?
  24. GAE了解吗?两个参数哪个控制偏差哪个控制方差?
  25. 详细介绍下GAE怎么计算的。
  26. 常用的探索方法有哪些?
  27. 知道softQ吗?
  28. 强化学习做过图像输入的吗?
  29. 自博弈算法完全随机开始和有预训练模型的区别?
  30. 介绍纳什均衡
  31. 介绍蒙特卡洛搜索树

DL相关

  1. 对深度学习了解如何?
  2. 介绍神经网络:CNN和RNN等
  3. CNN和RNN分别适合什么场景?
  4. 介绍下LSTM
  5. BN在训练和测试时有什么不同?均值和方差怎么更新的?
  6. BN的参数是可学习吗?
  7. GBDT叶子结点的切分准则?
  8. 介绍熟悉的一种机器学习算法?
  9. 三通道CNN的卷积核参数计算?
  10. 说一下常用的激活函数,sigmoid的计算公式?
  11. relu效果比sigmoid好的原因是什么?
  12. softmax的计算公式是什么?
  13. 频率学派和贝叶斯学派的区别?
  14. 避免过拟合的方法有哪些?
  15. 了解过transformer吗?
  16. 对优化器了解的怎么样,介绍下主要的发展脉络?
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值