《Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning》译读笔记

songyuc

已于 2024-07-08 20:58:42 修改

阅读量140

点赞数 1

文章标签：笔记

于 2024-07-03 20:29:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyuc/article/details/140161598

版权

Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning

摘要

本文介绍了基于当前世界上最受欢迎的游戏之一《王者荣耀》的强化学习（Reinforcement Learning, RL）环境，Honor of Kings Arena。与先前大多数研究中的其它环境相比，本文的环境为竞争性强化学习带来了新的泛化挑战。这是一个多智能体问题，其中，智能体需要与对手竞争；智能体需要泛化能力，因其会有多种目标需要控制和多样对手需要竞争。本文描述了 Honor of Kings（HoK）domain 中的 observation、action和 reward specifications，并提供了一个基于Python的开源接口，用于与游戏引擎通信。本文在 Honor of Kings Arena 中提供了二十个目标英雄，涵盖各种任务，并在可行的计算资源下展示了基于RL方法的初步基线结果。最后，本文展示了 Honor of Kings Arena 带来的泛化挑战以及应对这些挑战的可能的解决方法。所有软件，包括环境类（ environment-class），都可以在 https://github.com/tencent-ailab/hok_env 公开获取。文档可在 https://aiarena.tencent.com/hok/doc/ 获取。

1 引言

在过去的几十年里，从西洋双陆棋[22_TD-Gammon]到国际象棋[19_Mastering-Go]和雅达利游戏[14_Playing-Atari]，游戏一直被用作测试人工智能能力的试验平台。2016年，AlphaGo通过深度强化学习和 Monte Carlo tree search [19_Mastering-Go] 击败了世界冠军。近年来，强化学习模型在机器人控制[8_https://arxiv.org/abs/1812.05905]、自动驾驶[16_RL-Autonomous-Driving]，以及如星际争霸（StarCraft）[23_RL-StarCraft]、DOTA[1_Dota2-RL]、我的世界[7_MineRL]和王者荣耀[26_MOBA-AI, 28_MOBA-RL, 29_Complex-Control-RL]等视频游戏领域带来了巨大的进步。

与之前的AI里程碑相关，游戏AI的研究重点已经从棋盘游戏转向更复杂的游戏，比如信息不完整的扑克游戏[2_Heads-Up-Poker]和实时战略游戏[28_MOBA-RL]。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning》译读笔记

Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning摘要
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。