强化学习实习岗面经

一. 第四范式(经济决策)

  1. 是否学过python,自学还是?
  2. python相关:如python的数据格式,字典和列表的区别,如何合并字典,深拷贝浅拷贝的区别
  3. 项目相关:reward是怎么设置的
  4. 考了道二分的题。让用python写。

二. 毫末智行(自动驾驶决策岗)

  1. 自我介绍
  2. 博弈和强化你是怎么结合的?局部最优你是怎么处理的?
  3. 说说你最熟悉的几个强化框架?DQN和DDPG的区别?on-policy和off-policy的区别?A2C,A3C,异步和同步有哪些区别。
  4. 除了博弈和强化你还了解哪些有关控制、规划、视觉的算法
  5. Dijstra和A* 的区别,A* 的启发式是什么
  6. 手写快排

三.启元世界(强化学习)

  1. 现在研究生几年级,你现在的研究方向?
  2. 介绍项目。问的很细,一点一点问。
  3. DDPG改进到D4PG你是怎么做的,ddpg和dqn有什么区别和优势,D4PG的四个D分别是什么?
  4. value-based和policy gradient有什么区别,为什么pg不是单步更新。
  5. dqn过估计的原因。
  6. mcts四步是哪四步。
  7. 手写softmax。

四. 毫末二面

1.自我介绍
研究方向、科研项目、无人驾驶项目
2.机器博弈项目的背景?战场双方对兵力等评估,
博弈输出的动作是什么?输出的是价值不是强化学习过程
action是什么?通过网络对态势评估,给到CFR计算得到遗憾值进行更新策略
这些步骤在战场博弈下对应的是什么?用德扑模拟这个过程
最后怎么求解的?怎么把德扑模型构建的?
DeepStack是什么意思?模型的输入输出是什么?你主要负责的是什么?评估过训练的效果吗?
你对蒙特卡洛搜索了解吗,讲一下?
搜索目标是什么?蒙特卡洛搜索与其他搜索算法的对比了解吗?
3.目标决策具体是怎么做的?这和强化学习有什么关系?你这个听起来像是个监督学习,奖励怎么设置的?
动作就是选哪个目标?选哪个目标是先验还是后验的?你放入状态里了吗?那不就无脑打优先级高的。
你调的什么环境?强化学习环境用的啥?这个是你一个人干的不?
4.自动驾驶是你自己找的事情做的吗?TORCS是一个仿真平台吗?提供了什么环境?障碍物长什么样?没有交通参与者吗?那你说说调参的经验,那些参数对完成任务有帮助。
batch大小,经验池大小,软更新,噪声。
有没有在调参的过程遇到问题?你觉得这个问题出现的原因在哪里?效果明显提升了是吗?
弯道上你有没有发现一些问题?
5.你现在在学校?出的来吗?后面实习能实习多久?几月回去?你对我们这边有什么问题?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值