多智能体强化学习_加入图卷积的多智能体强化学习

本文介绍了如何使用图卷积强化学习(DGN)解决多智能体环境中的合作问题。DGN通过将环境建模为图结构,利用卷积和注意力机制来模拟智能体间的交互,从而在多智能体合作策略中取得优异表现。模型包括观察信息编码器、卷积层和Q网络,旨在最大化所有智能体奖励的总和。
摘要由CSDN通过智能技术生成

8779574fd9fdde46b00f3be99d5c5c57.png

摘要

多智能体(multi-agent)强化学习不仅有环境交互问题,还有智能体之间的相互影响,甚至智能体对环境施加的作用可能反过来影响智能体自身下一步行为的选择,状态空间和动作空间均随着智能体数量增多而迅速扩大,对存储和运算等多方面都提出了新的要求和挑战。发表于ICLR2020的图卷积强化学习[1]融合了近期大热的多个研究方向,将“多智能体环境”嵌入图结构,并以卷积核与注意力分配的方式来模拟智能体在合作过程中的信息传递行为,学习不同场景的合作策略,取得了超越前人的表现效果。

1、多智能体背景 自从DeepMind运用强化学习先在Atari游戏获得成功、后开发AlphaGo击败人类冠军选手,强化学习便迅速吸引了大众的目光;随着神经网络和计算机算力的发展,自动驾驶和机器人控制等领域的兴起,结合深度学习的深度强化学习也获得爆炸式增长。研究人员已不满足于单智能体的“简单”模型,开展了众多关于多智能体环境的探索与研究,例如发表于2016年NIPS的CommNet[2]创新地进行了多智能体之间通过交流与通讯(神经网络的反向传播)达到信息传递与共享,进而取得更高总奖励的尝试。2017年面世的MAgent[3]提供了一个可在一台GPU服务器上承载至多一百万个智能体的多智能体强化学习研发平台。而2018年ICML收录的工作 Mean Field Multi-Agent Reinforcement Learning[4](MFMA)近似地将除自己以外的其他智能体对自身的影响用均值代替,简化成one vs rest的效果,将多智能体合作课题研究又向前推进了一步。 受上述工作启发,[1]中介绍的图卷积强化学习(以下简称DGN)将拥有N个智能体的环境构造成图结构,其中每个智能体抽象为图中的一个点(node),智能体观察到的环境信息即为该点特征;根据“距离”或其他定制化度量可划定邻域,进而可定义“邻居”(neighbor),这样智能体与其邻居之间便有了边(edge)。智能体i的邻居的集合定义为 f576751bc2378f52f617c6fb4c5842ba.png,另用 4cfe38996f0240f0e348c2c366afe434.png来表达 4920e592a5212017a96c12591adfd7f7.png,即包含自己的邻域。 [注࿱
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值