![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习-应用
文章平均质量分 92
应用
nopSled
一周一更
展开
-
Mastering Diverse Domains through World Models翻译
强化学习使计算机能够通过交互来独立解决任务,例如在Go和Dota游戏中超越人类。但是,将算法应用到新的应用领域,例如从棋盘游戏到视频游戏或机器人任务,都需要专家知识和计算资源来调整算法。这种脆弱性也阻碍了大型模型的应用,因为这些模型成本昂贵。不同的领域具有独特的学习挑战,这些挑战促使提出领域特定的算法,例如连续控制,稀疏奖赏,图像输入和空间环境。创建一种通用的可以学会开箱即用的新领域(无需调整)的算法,这将克服专家知识的障碍,并将强化学习应用到更广泛的领域。翻译 2023-02-06 17:03:31 · 202 阅读 · 0 评论 -
Mastering the game of Go with deep neural networks and tree search翻译
摘要长期以来,围棋游戏一直被认为是人工智能中最具挑战性的游戏,这是由于其巨大的搜索空间以及评估棋盘位置和动作的困难。在这里,我们介绍了一种新的玩围棋的方法,该方法使用“价值网络”来评估棋盘位置,用“策略网络”来选择动作。这些深度神经网络通过从人类专家游戏数据中进行有监督学习,并从self-play游戏中进行强化学习来训练。在没有任何lookahead搜索的情况下,神经网络通过在模拟数千次self-play的最优蒙特卡洛树搜索上玩围棋游戏。我们还引入了一种新的搜索算法,将蒙特卡洛模拟与价值和策略网络相结合。翻译 2022-05-09 17:00:01 · 232 阅读 · 0 评论 -
Mastering the game of Go without human knowledge翻译
摘要人工智能的一个长期目标是学习一种算法,tabula rasa,能够在某个有挑战的领域超越人类的熟练度。最近,AlphaGo成为第一个在围棋游戏中击败世界冠军的程序。AlphaGo使用树搜索进行评估,并使用深神经网络选择动作。这些神经网络通过基于人类专家的动作进行有监督学习,还通过self-play的强化学习来训练。本论文中,我们介绍了一种仅基于强化学习的算法,不需要使用人类数据,或游戏规则以外的领域知识进行指导。AlphaGo自己是自己的老师:一个经过训练的神经网络可以预测自己的动作选择,以及游戏的赢翻译 2022-04-30 16:44:42 · 222 阅读 · 0 评论 -
Towards Playing Full MOBA Games with Deep Reinforcement Learning翻译
摘要翻译 2021-11-30 11:50:27 · 591 阅读 · 0 评论 -
Mastering Complex Control in MOBA Games with Deep Reinforcement Learning翻译
摘要我们研究了多人在线战斗竞技场(MOBA)1v1游戏中复杂动作控制的强化学习问题。与传统的1v1游戏(例如Go和Atari系列)相比,此问题涉及的状态和动作空间要复杂得多,这使得搜索具有人类水平性能的策略非常困难。在本文中,我们提出了一个深度强化学习框架,从系统和算法的角度来解决这个问题。我们的系统耦合度低且可扩展性高,可实现大规模的高效勘探。我们的算法包括几种新颖的策略,包括控制依赖解耦,动...翻译 2020-01-14 10:14:55 · 2990 阅读 · 1 评论