强化学习实习岗面经

Leo_Mh

已于 2022-05-25 11:09:30 修改

阅读量1k

点赞数 2

文章标签：强化学习面试

于 2022-03-28 16:56:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36691985/article/details/123799558

版权

一. 第四范式（经济决策）

是否学过python，自学还是？
python相关：如python的数据格式，字典和列表的区别，如何合并字典，深拷贝浅拷贝的区别
项目相关：reward是怎么设置的
考了道二分的题。让用python写。

二. 毫末智行（自动驾驶决策岗）

自我介绍
博弈和强化你是怎么结合的？局部最优你是怎么处理的？
说说你最熟悉的几个强化框架？DQN和DDPG的区别？on-policy和off-policy的区别？A2C,A3C，异步和同步有哪些区别。
除了博弈和强化你还了解哪些有关控制、规划、视觉的算法
Dijstra和A* 的区别，A* 的启发式是什么
手写快排

三.启元世界（强化学习）

现在研究生几年级，你现在的研究方向？
介绍项目。问的很细，一点一点问。
DDPG改进到D4PG你是怎么做的，ddpg和dqn有什么区别和优势，D4PG的四个D分别是什么？
value-based和policy gradient有什么区别，为什么pg不是单步更新。
dqn过估计的原因。
mcts四步是哪四步。
手写softmax。

四. 毫末二面

1.自我介绍
研究方向、科研项目、无人驾驶项目
2.机器博弈项目的背景？战场双方对兵力等评估，
博弈输出的动作是什么？输出的是价值不是强化学习过程
action是什么？通过网络对态势评估，给到CFR计算得到遗憾值进行更新策略
这些步骤在战场博弈下对应的是什么？用德扑模拟这个过程
最后怎么求解的？怎么把德扑模型构建的？
DeepStack是什么意思？模型的输入输出是什么？你主要负责的是什么？评估过训练的效果吗？
你对蒙特卡洛搜索了解吗，讲一下？
搜索目标是什么？蒙特卡洛搜索与其他搜索算法的对比了解吗？
3.目标决策具体是怎么做的？这和强化学习有什么关系？你这个听起来像是个监督学习，奖励怎么设置的？
动作就是选哪个目标？选哪个目标是先验还是后验的？你放入状态里了吗？那不就无脑打优先级高的。
你调的什么环境？强化学习环境用的啥？这个是你一个人干的不？
4.自动驾驶是你自己找的事情做的吗？TORCS是一个仿真平台吗？提供了什么环境？障碍物长什么样？没有交通参与者吗？那你说说调参的经验，那些参数对完成任务有帮助。
batch大小，经验池大小，软更新，噪声。
有没有在调参的过程遇到问题？你觉得这个问题出现的原因在哪里？效果明显提升了是吗？
弯道上你有没有发现一些问题？
5.你现在在学校？出的来吗？后面实习能实习多久？几月回去？你对我们这边有什么问题？

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。