Hierarchical Reinforcement Learning for Multi-agent MOBA Game 论文笔记

题目:Hierarchical Reinforcement Learning for Multi-agent MOBA Game

翻译&重点提炼

Abstact(概述)

实时策略(RTS)游戏需要宏观策略和微观策略才能获得令人满意的效果,因为它具有较大的状态空间,动作空间和隐藏的信息。本文提出了一种新颖的分层强化学习模型,用于掌握多人在线战斗竞技场(MOBA)游戏。所做的贡献是:(1)提出一个层次结构的框架,其中智能体通过模仿学习执行宏观策略,并通过强化学习进行微观操作;(2)开发一种简单的自学习方法来获得更好的训练样本效率; (3)在没有游戏引擎或应用程序编程接口(API)的情况下,为多主体合作设计密集 (dense)奖励函数。最后,已经进行了各种实验以验证所提出的方法相对于其他最新的强化学习算法的优越性能。智能体成功学习了以100%的获胜率战斗和击败铜级内置AI的方法,实验表明,我们的方法可以为5v5模式的移动MOBA游戏《王者荣耀》创建具有竞争力的多智能体。

关键词
  • 分层强化学习模型
  • 模仿学习
  • 自学习方法
  • 为多主体合作设计密集 (dense)奖励函数
1.Introduction(介绍)

自从成功玩Atari,AlphaGo,Dota 2等游戏以来,深度强化学习(DRL)已成为游戏AI的有前途的工具。 研究人员通过在游戏中进行实验来快速验证算法,并将此功能转移到现实世界的应用程序中,例如机器人控制,推荐服务。 不幸的是,实践中仍然存在许多挑战。 最近,越来越多的研究人员开始征服更复杂的实时策略(RTS)游戏,例如《星际争霸》和《Data》。Dota是一种多人在线战斗竞技场(MOBA)游戏,其中包括5v5和1v1模式。 为了在MOBA游戏中取得胜利,玩家需要控制自己的唯一一名智能体来摧毁敌人的水晶。
MOBA游戏占据了全世界在线游戏的30%以上,包括英雄联盟,Dota,荣耀之王(KOG)等。 图1a显示了KOG的5v5地图,其中玩家通过控制左下转向按钮来控制英雄的动作,同时通过控制右下按钮组来使用技能。 左上角显示小地图,蓝色标记代表自己的塔,红色标记代表敌人的塔。 每个玩家都可以通过杀死敌人,玩杂耍和摧毁塔来获得金钱和经验。 该游戏的最终目标是消灭敌人的水晶。 如图1b所示,在1v1地图中有两个玩家。
在这里插入图片描述
与A

HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值