深度强化学习

最新推荐文章于 2024-08-07 21:27:48 发布

口含薄荷、心微凉

最新推荐文章于 2024-08-07 21:27:48 发布

阅读量154

点赞数

文章标签：算法人工智能深度学习机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44327865/article/details/113940442

版权

一、问题求助

强化学习论文里的训练曲线是用什么画的？如何计算相关变量
http://deeprl.neurondance.com/d/114
强化学习和启发式算法有什么区别
http://deeprl.neurondance.com/d/139
RL中的异步更新和同步更新有什么区别？
http://deeprl.neurondance.com/d/149-rl
[收敛性]如何确定“深度强化学习”算法训练到收敛？
http://deeprl.neurondance.com/d/93
carla自动驾驶奖励设计
http://deeprl.neurondance.com/d/152-carla
为什么训练过程中会出现reward不增反降以及vf_loss不收敛的情况？
http://deeprl.neurondance.com/d/151-rewardvf-loss
为什么深度强化学习不稳定？
http://deeprl.neurondance.com/d/123
解决连续型问题使用PPO还是DDPG？
http://deeprl.neurondance.com/d/121-ppoddpg
DQN实操问题求助：简单问题下Reward无法达到理论最优
http://deeprl.neurondance.com/d/122-dqnreward
TRPO、ACER、ACKTR、PPO四种置信域算法的有什么共性和区别？
http://deeprl.neurondance.com/d/120-trpoaceracktrppo
为啥On-Policy不能使用Experience Replay？
http://deeprl.neurondance.com/d/89-on-policyexperience-replay
基于ddpg的单模型算法训练是否存在什么弊端
http://deeprl.neurondance.com/d/117-ddpg
off-policy算法使用重要性采样？
http://deeprl.neurondance.com/d/113-off-policy
Epoch>1的PPO算法究竟属于On-Policy还是Off-Policy？
http://deeprl.neurondance.com/d/112-epoch1ppoon-policyoff-policy
强化学习里都有哪些利用数据的领域/方法？
http://deeprl.neurondance.com/d/106
对于深度强化学习，对样本数据归一化怎么做?
http://deeprl.neurondance.com/d/59
如何理解策略梯度（Policy Gradient）算法？
http://deeprl.neurondance.com/d/55-policy-gradient
请问ppo输出为连续值时一般是输出均值和方差再去采样吗
http://deeprl.neurondance.com/d/58-ppo
学习强化学习(reinforcement learning)有哪些工具推荐？
http://deeprl.neurondance.com/d/9-reinforcement-learning

二、领域细分

深度强化学习的 18 个关键问题
http://deeprl.neurondance.com/d/126-18
【Goolge】使用强化学习自动找寻模型专用Dropout
http://deeprl.neurondance.com/d/101-goolgedropout

三、RL算法详解

如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（已完成）
http://deeprl.neurondance.com/d/166-muzerosacppotd3ddpgdqn
主流强化学习算法论文综述：DQN、DDPG、TRPO、A3C、PPO、SAC、TD3
http://deeprl.neurondance.com/d/165-dqnddpgtrpoa3cpposactd3
值分布强化学习（Distributional Reinforcement Learning）
http://deeprl.neurondance.com/d/105-distributional-reinforcement-learning
强化学习中的奇怪概念——on-policy与off-policy
http://deeprl.neurondance.com/d/133-on-policyoff-policy
强化学习中的奇怪概念2-rollout-episode-epoch-step-trajectory
http://deeprl.neurondance.com/d/143-2-rollout-episode-epoch-step-trajectory
强化学习中值函数与优势函数的估计方法
http://deeprl.neurondance.com/d/54-double-q-learning
Dueling DQN(DDQN)原理及实现
http://deeprl.neurondance.com/d/124-dueling-dqnddqn
Double Q-Learning原理详解
http://deeprl.neurondance.com/d/54-double-q-learning

四、AI顶会/论文

人工智能领域顶会 || 30+个必知的顶级会议清单
http://deeprl.neurondance.com/d/97-30
强化学习调参经验 || John Schulman总结DeepRL理论、模型及编码调参技巧
http://deeprl.neurondance.com/d/98-john-schulmandeeprl

五、书籍研读

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全
http://deeprl.neurondance.com/d/110-2nd

六、开源内容

好用的深度强化学习框架有哪些？
http://deeprl.neurondance.com/d/100
OpenAI: Gym组件
http://deeprl.neurondance.com/d/70-openai-gym

七、专题博客

最干货：深度强化学习工程师/研究员面试指南
http://deeprl.neurondance.com/d/146
83篇文献-万字总结强化学习之路
http://deeprl.neurondance.com/d/131-83
【深度强化学习】奖励函数设计和设置（reward shaping）
http://deeprl.neurondance.com/d/92-reward-shaping

八、招聘信息

【字节跳动】2021年强化学习团队招聘（附内推码）
http://deeprl.neurondance.com/d/90-2021
阿里巴巴达摩院自动驾驶实验室【强化学习】方向Research Intern招聘
http://deeprl.neurondance.com/d/56-research-intern

九、RL资源

国内外做强化学习的老师，高校以及公司总结
http://deeprl.neurondance.com/d/154

口含薄荷、心微凉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习

一、问题求助强化学习论文里的训练曲线是用什么画的？如何计算相关变量http://deeprl.neurondance.com/d/114强化学习和启发式算法有什么区别http://deeprl.neurondance.com/d/139RL中的异步更新和同步更新有什么区别？http://deeprl.neurondance.com/d/149-rl[收敛性]如何确定“深度强化学习”算法训练到收敛？http://deeprl.neurondance.com/d/93carla自动驾驶奖励设
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。