python实现多智能体一致性_多智能体强化学习入门(八)——图卷积强化学习DGN...

本文介绍了利用图卷积网络解决多智能体深度强化学习中智能体间交互关系的问题。DGN通过图卷积、关系核和时序关系正则化学习智能体间的交互,实现一致性。实验比较了DGN、DGN-R和DGN-M三种变体的效果。
摘要由CSDN通过智能技术生成

d0b709ee52be46e4037f943918fcada5.png

GRAPH CONVOLUTIONAL REINFORCEMENT LEARNING

一、创新点及概要

多智能体任务中,环境具有高动态性,各个智能体的状态都在快速改变,如何学习两个智能体之间的交互关系是一个关键问题。这篇文章从图网络的角度来对交互进行建模,主要有以下三个技巧来学习智能体之间的交互关系:

  • 利用图卷积来处理智能体邻居数量不确定的问题,并且随着卷积层增加,每个智能体的感知域随之扩大。
  • 涉及关系核(relation kernels),即多头注意力机制(multi-head attention mechanism)来对智能体之间的交互进行建模。
  • 时序关系正则化(temporal relation regularization)来确保交互关系的一致性,能够让学习更稳定。

多智能体环境被建模为一个图网络,每个节点表示一个智能体,节点特征为该智能体观测到的状态。每个智能体与其邻居之间连接一条边。作者将该算法称为DGN,基于Q-learning拓展出来的算法。每层图网络利用attention机制对邻居节点信息进行加权更新自己节点的状态,随着层数的增加每个智能体的感知域随之扩大,因为根据图网络更新规则,每次利用邻居信息来更新自身节点信息,而邻居也在利用他的邻居更新他自身,故随着图网络层数的增多,每个节点所能获取信息

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多智能体强化学习是指多个智能体协同学习来解决一个共同的任务的方法。在多智能体强化学习中,每个智能体都是一个节点,并且节点之间通过边连接。通过采用多头注意力作为卷积核,卷积可以提取节点之间的关系表示,并对来自相邻节点的特征进行卷积,类似于卷积神经网络中的神经元。通过逐渐增加的感受野提取的潜在特征被用于学习合作策略。此外,通过在时间上对关系表示进行正则化,可以帮助智能体制定一致的合作策略。多智能体强化学习可以使用深度Q网络进行实例化,并进行端到端的训练。在这种方法中,所有智能体之间共享权重,易于扩展。通过关系核抽象智能体之间的相互作用,并通过卷积提取潜在特征,并通过时间关系正则化诱导一致的合作。与其他参数共享方法不同,卷积允许通过联合考虑智能体接受域中的其他智能体来优化策略,促进互助。关系内核可以有效地捕捉智能体之间的相互作用和抽象关系表示,从而进一步提高合作。时间正则化可以最小化连续时间步中关系表示的KL散度,促进合作,帮助智能体在具有许多移动智能体的高度动态环境中形成长期一致的策略。, 因此,多智能体强化学习中使用的是同一个网络和同样的参数。这意味着所有智能体共享相同的神经网络结构和参数,这使得算法更加简洁和可扩展。通过共享网络和参数,智能体可以学习到全局的信息,并且能够更好地协同合作来解决任务。这种共享网络和参数的方法在多智能体强化学习中被广泛应用,并取得了很好的效果。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [多智能体强化学习-DGN](https://blog.csdn.net/DAYUZHIBULESHUI/article/details/127034570)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [第章-群体智能.doc](https://download.csdn.net/download/qq_43934844/87505743)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值