深度强化学习

一、问题求助

  1. 强化学习论文里的训练曲线是用什么画的?如何计算相关变量
    http://deeprl.neurondance.com/d/114
  2. 强化学习和启发式算法有什么区别
    http://deeprl.neurondance.com/d/139
  3. RL中的异步更新和同步更新有什么区别?
    http://deeprl.neurondance.com/d/149-rl
  4. [收敛性]如何确定“深度强化学习”算法训练到收敛?
    http://deeprl.neurondance.com/d/93
  5. carla自动驾驶奖励设计
    http://deeprl.neurondance.com/d/152-carla
  6. 为什么训练过程中会出现reward不增反降以及vf_loss不收敛的情况?
    http://deeprl.neurondance.com/d/151-rewardvf-loss
  7. 为什么深度强化学习不稳定?
    http://deeprl.neurondance.com/d/123
  8. 解决连续型问题使用PPO还是DDPG?
    http://deeprl.neurondance.com/d/121-ppoddpg
  9. DQN实操问题求助:简单问题下Reward无法达到理论最优
    http://deeprl.neurondance.com/d/122-dqnreward
  10. TRPO、ACER、ACKTR、PPO四种置信域算法的有什么共性和区别?
    http://deeprl.neurondance.com/d/120-trpoaceracktrppo
  11. 为啥On-Policy不能使用Experience Replay?
    http://deeprl.neurondance.com/d/89-on-policyexperience-replay
  12. 基于ddpg的单模型算法训练是否存在什么弊端
    http://deeprl.neurondance.com/d/117-ddpg
  13. off-policy算法使用重要性采样?
    http://deeprl.neurondance.com/d/113-off-policy
  14. Epoch>1的PPO算法究竟属于On-Policy还是Off-Policy?
    http://deeprl.neurondance.com/d/112-epoch1ppoon-policyoff-policy
  15. 强化学习里都有哪些利用数据的领域/方法?
    http://deeprl.neurondance.com/d/106
  16. 对于深度强化学习,对样本数据归一化怎么做?
    http://deeprl.neurondance.com/d/59
  17. 如何理解策略梯度(Policy Gradient)算法?
    http://deeprl.neurondance.com/d/55-policy-gradient
  18. 请问ppo输出为连续值时一般是输出均值和方差再去采样吗
    http://deeprl.neurondance.com/d/58-ppo
  19. 学习强化学习(reinforcement learning)有哪些工具推荐?
    http://deeprl.neurondance.com/d/9-reinforcement-learning

二、领域细分

  1. 深度强化学习的 18 个关键问题
    http://deeprl.neurondance.com/d/126-18
  2. 【Goolge】使用强化学习自动找寻模型专用Dropout
    http://deeprl.neurondance.com/d/101-goolgedropout

三、RL算法详解

  1. 如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(已完成)
    http://deeprl.neurondance.com/d/166-muzerosacppotd3ddpgdqn
  2. 主流强化学习算法论文综述:DQN、DDPG、TRPO、A3C、PPO、SAC、TD3
    http://deeprl.neurondance.com/d/165-dqnddpgtrpoa3cpposactd3
  3. 值分布强化学习(Distributional Reinforcement Learning)
    http://deeprl.neurondance.com/d/105-distributional-reinforcement-learning
  4. 强化学习中的奇怪概念——on-policy与off-policy
    http://deeprl.neurondance.com/d/133-on-policyoff-policy
  5. 强化学习中的奇怪概念2-rollout-episode-epoch-step-trajectory
    http://deeprl.neurondance.com/d/143-2-rollout-episode-epoch-step-trajectory
  6. 强化学习中值函数与优势函数的估计方法
    http://deeprl.neurondance.com/d/54-double-q-learning
  7. Dueling DQN(DDQN)原理及实现
    http://deeprl.neurondance.com/d/124-dueling-dqnddqn
  8. Double Q-Learning原理详解
    http://deeprl.neurondance.com/d/54-double-q-learning

四、AI顶会/论文

  1. 人工智能领域顶会 || 30+个必知的顶级会议清单
    http://deeprl.neurondance.com/d/97-30
  2. 强化学习调参经验 || John Schulman总结DeepRL理论、模型及编码调参技巧
    http://deeprl.neurondance.com/d/98-john-schulmandeeprl

五、书籍研读

  1. 圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全
    http://deeprl.neurondance.com/d/110-2nd

六、开源内容

  1. 好用的深度强化学习框架有哪些?
    http://deeprl.neurondance.com/d/100
  2. OpenAI: Gym组件
    http://deeprl.neurondance.com/d/70-openai-gym

七、专题博客

  1. 最干货:深度强化学习工程师/研究员面试指南
    http://deeprl.neurondance.com/d/146
  2. 83篇文献-万字总结强化学习之路
    http://deeprl.neurondance.com/d/131-83
  3. 【深度强化学习】 奖励函数设计和设置(reward shaping)
    http://deeprl.neurondance.com/d/92-reward-shaping

八、招聘信息

  1. 【字节跳动】2021年强化学习团队招聘(附内推码)
    http://deeprl.neurondance.com/d/90-2021
  2. 阿里巴巴达摩院自动驾驶实验室【强化学习】方向Research Intern招聘
    http://deeprl.neurondance.com/d/56-research-intern

九、RL资源

  1. 国内外做强化学习的老师,高校以及公司总结
    http://deeprl.neurondance.com/d/154
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值