MAAC注意力模块简要笔记

QCNH雨文

已于 2022-04-11 09:45:55 修改

阅读量1.2k

点赞数

分类专栏：强化学习文章标签：强化学习多智能体通信

于 2022-04-08 11:42:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LoveMQ_919/article/details/124037363

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

MAAC注意力模块笔记

MAAC的主要思想是通过有选择的注意其他智能体的信息，来为每个智能体学习一个critic。每个智能体询问其他智能体有关它们观察和动作的信息，并把此信息纳入对自己值函数的估计中。每个智能体都由一个critic，但是所有critic使用一个共享的注意模块。

为了计算每个智能体i的 $Q_i^ψ (o,a)$ ，critic接收所有的观察和动作。把除了智能体i以外的所有智能体记作 $j$ ， $Q_i^ψ (o,a)=f_i (g_i (o_i,a_i ),x_i)$ 就是有关以下三部分的函数：

智能体 $i$ 的观察;
智能体 $i$ 的动作;
$j$ 的贡献。

$x_i$ 是除 $i$ 外每个智能体value的加权和：

$x_i=∑_{(j≠i)} \alpha_jv_j$

智能体 $j$ 的value：

$v_j=h(Vg_j (o_j,a_j))$

先把其观察和动作做嵌入，之后通过一个共享的矩阵V进行线性转换，h是非线性的MAAC中用的是ReLU，应该属于激活函数。

智能体j的权重 $α_j$ 的计算：

$α_j∝exp⁡(e_j^T W_k^T W_q e_i)$

将 $e_j$ 与 $e_i$ 比较（使用双线性映射如query-key系统），并将二者的相似性值传入softmax。显然智能体j的嵌入与智能体i的嵌入越相似，其权重也就越高。

使用多个注意头（Multiple Attention Heads）
每个头对应一个智能体 $i$ 、使用一组参数（ $W_k$ ， $W_q$ ， $V$ ，在所有智能体之间共享），产生 $x_i$ 。至关重要的是，头与头之间对其他智能体信息的加权情况可以不同，也就是说不同的智能体对其他智能体的关注情况可以不同。

结构：
在这里插入图片描述

每个智能体对其观察和动作进行编码，发送到中心注意机制模块，并接收其他智能体的信息（其他智能体编码的加权和）。

优势：
MAAC不假设每个智能体的动作空间相同（但需要离散），不需要全局奖励，并动态关注其他智能体。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
MAAC注意力模块简要笔记

MAAC注意力模块笔记MAAC的主要思想是通过有选择的注意其他智能体的信息，来为每个智能体学习一个critic。每个智能体询问其他智能体有关它们观察和动作的信息，并把此信息纳入对自己值函数的估计中。每个智能体都由一个critic，但是所有critic使用一个共享的注意模块。为了计算每个智能体i的Qiψ(o,a)Q_i^ψ (o,a)Qiψ(o,a)，critic接收所有的观察和动作。把除了智能体i以外的所有智能体记作jjj， Qiψ(o,a)=fi(gi(oi,ai),xi)Q_i^ψ (o,a)=f
复制链接

扫一扫

专栏目录

QCNH雨文 CSDN认证博客专家 CSDN认证企业博客

码龄5年

12: 原创

10万+: 周排名

216万+: 总排名

5万+: 访问

: 等级

544: 积分

75: 粉丝

90: 获赞

12: 评论

429: 收藏

私信

关注

热门文章

分类专栏

最新评论

人工智能作业三
Lskkkno1: 学长好，请问您知道为什么是0.4了吗
tensorflow.contrib.distributions.RelaxedOneHotCategorical变量参数详解
day day up～: 作者您好想问下这个函数具体有什么用呢用在神经网络的最后一层进行采样的话如何才能知道它所输出结果的范围是多少呢（最近在复现一个关于DDPG算法的代码里面定义的actor网络的最后一个激活层之后用到了这个函数但我实在不太理解具体起到的作用是什么还有那个temperature参数应该如何设置比较合理呢）我也没找到太多相关资料和比较通俗的解释您理解的话可以帮我解答一下嘛谢谢您！
编译原理龙书第四章部分习题（编译原理作业三）
QCNH雨文: 看清楚是三年前写的作业，有什么其他需要都不要来问我一律没有
编译原理龙书第四章部分习题（编译原理作业三）
黒猫.: 4.2.1有没有5）的答案啊
tensorflow.contrib.distributions.RelaxedOneHotCategorical变量参数详解
QCNH雨文: 你好，我一直使用的是tensorflow.v1，不太清楚v2是否有替代的。建议到tensorflow官网查一下。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。