一、问题求助
- 强化学习论文里的训练曲线是用什么画的?如何计算相关变量
http://deeprl.neurondance.com/d/114 - 强化学习和启发式算法有什么区别
http://deeprl.neurondance.com/d/139 - RL中的异步更新和同步更新有什么区别?
http://deeprl.neurondance.com/d/149-rl - [收敛性]如何确定“深度强化学习”算法训练到收敛?
http://deeprl.neurondance.com/d/93 - carla自动驾驶奖励设计
http://deeprl.neurondance.com/d/152-carla - 为什么训练过程中会出现reward不增反降以及vf_loss不收敛的情况?
http://deeprl.neurondance.com/d/151-rewardvf-loss - 为什么深度强化学习不稳定?
http://deeprl.neurondance.com/d/123 - 解决连续型问题使用PPO还是DDPG?
http://deeprl.neurondance.com/d/121-ppoddpg - DQN实操问题求助:简单问题下Reward无法达到理论最优
http://deeprl.neurondance.com/d/122-dqnreward - TRPO、ACER、ACKTR、PPO四种置信域算法的有什么共性和区别?
http://deeprl.neurondance.com/d/120-trpoaceracktrppo - 为啥On-Policy不能使用Experience Replay?
http://deeprl.neurondance.com/d/89-on-policyexperience-replay - 基于ddpg的单模型算法训练是否存在什么弊端
http://deeprl.neurondance.com/d/117-ddpg - off-policy算法使用重要性采样?
http://deeprl.neurondance.com/d/113-off-policy - Epoch>1的PPO算法究竟属于On-Policy还是Off-Policy?
http://deeprl.neurondance.com/d/112-epoch1ppoon-policyoff-policy - 强化学习里都有哪些利用数据的领域/方法?
http://deeprl.neurondance.com/d/106 - 对于深度强化学习,对样本数据归一化怎么做?
http://deeprl.neurondance.com/d/59 - 如何理解策略梯度(Policy Gradient)算法?
http://deeprl.neurondance.com/d/55-policy-gradient - 请问ppo输出为连续值时一般是输出均值和方差再去采样吗
http://deeprl.neurondance.com/d/58-ppo - 学习强化学习(reinforcement learning)有哪些工具推荐?
http://deeprl.neurondance.com/d/9-reinforcement-learning
二、领域细分
- 深度强化学习的 18 个关键问题
http://deeprl.neurondance.com/d/126-18 - 【Goolge】使用强化学习自动找寻模型专用Dropout
http://deeprl.neurondance.com/d/101-goolgedropout
三、RL算法详解
- 如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(已完成)
http://deeprl.neurondance.com/d/166-muzerosacppotd3ddpgdqn - 主流强化学习算法论文综述:DQN、DDPG、TRPO、A3C、PPO、SAC、TD3
http://deeprl.neurondance.com/d/165-dqnddpgtrpoa3cpposactd3 - 值分布强化学习(Distributional Reinforcement Learning)
http://deeprl.neurondance.com/d/105-distributional-reinforcement-learning - 强化学习中的奇怪概念——on-policy与off-policy
http://deeprl.neurondance.com/d/133-on-policyoff-policy - 强化学习中的奇怪概念2-rollout-episode-epoch-step-trajectory
http://deeprl.neurondance.com/d/143-2-rollout-episode-epoch-step-trajectory - 强化学习中值函数与优势函数的估计方法
http://deeprl.neurondance.com/d/54-double-q-learning - Dueling DQN(DDQN)原理及实现
http://deeprl.neurondance.com/d/124-dueling-dqnddqn - Double Q-Learning原理详解
http://deeprl.neurondance.com/d/54-double-q-learning
四、AI顶会/论文
- 人工智能领域顶会 || 30+个必知的顶级会议清单
http://deeprl.neurondance.com/d/97-30 - 强化学习调参经验 || John Schulman总结DeepRL理论、模型及编码调参技巧
http://deeprl.neurondance.com/d/98-john-schulmandeeprl
五、书籍研读
- 圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全
http://deeprl.neurondance.com/d/110-2nd
六、开源内容
- 好用的深度强化学习框架有哪些?
http://deeprl.neurondance.com/d/100 - OpenAI: Gym组件
http://deeprl.neurondance.com/d/70-openai-gym
七、专题博客
- 最干货:深度强化学习工程师/研究员面试指南
http://deeprl.neurondance.com/d/146 - 83篇文献-万字总结强化学习之路
http://deeprl.neurondance.com/d/131-83 - 【深度强化学习】 奖励函数设计和设置(reward shaping)
http://deeprl.neurondance.com/d/92-reward-shaping
八、招聘信息
- 【字节跳动】2021年强化学习团队招聘(附内推码)
http://deeprl.neurondance.com/d/90-2021 - 阿里巴巴达摩院自动驾驶实验室【强化学习】方向Research Intern招聘
http://deeprl.neurondance.com/d/56-research-intern
九、RL资源
- 国内外做强化学习的老师,高校以及公司总结
http://deeprl.neurondance.com/d/154