2021-2022关于强化学习的高质量论文

最新推荐文章于 2024-02-22 16:30:51 发布

耄先森吖

最新推荐文章于 2024-02-22 16:30:51 发布

阅读量308

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35753431/article/details/129071699

版权

这是几篇有关强化学习的较高质量论文：

"Human-level control through deep reinforcement learning" by Volodymyr Mnih, et al. 这是一篇有关深度强化学习在 Atari 游戏中达到人类水平控制的论文，被广泛认为是强化学习领域的里程碑性论文。
"Proximal Policy Optimization Algorithms" by John Schulman, et al. 这是一篇有关近端策略优化算法(Proximal Policy Optimization, PPO)的论文，PPO 是当前广泛使用的强化学习算法之一，在深度强化学习中有着重要的应用。
"Soft Actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor" by Tuomas Haarnoja, et al. 这是一篇有关软性行为评论家 (Soft Actor-critic, SAC) 的论文，SAC 是一种深度强化学习算法，它能够在离线环境下训练，并且能够较好地处理随机性。
"Hindsight Experience Replay" by Marcin Andrychowicz, et al. 这是一篇有关视界体验重放 (Hindsight Experience Replay, HER) 的论文。HER 是一种用于解决目标不明确的强化学习问题的技术，能够有效地增加训练数据的质量和数量。

希望这些论文能够对你有所帮助。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。