图学习(二)K-armed Bandit based Multi-modal Network Architecture Search for Visual Question Answering

最新推荐文章于 2025-01-06 23:59:37 发布

薛定猫的谔w

最新推荐文章于 2025-01-06 23:59:37 发布

阅读量436

点赞数

分类专栏：图学习文章标签：深度学习

本文链接：https://blog.csdn.net/csdn_tclz/article/details/110312743

版权

图学习专栏收录该内容

4 篇文章

订阅专栏

本文提出KAB-NAS方法，结合多模态特征和图学习解决VQA问题。通过自动图注意力网络（AGAN），利用三种图结构（密集、协同、稀疏）改进传统GCN，提升信息传播效率。实验表明，KAB-NAS在VQA任务上优于手工设计的网络结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

研究机构：厦门大学纪荣嵘组
论文接收于2020ACM MM

摘要

本文将NAS应用于VQA问题中，提出一种k-Armed Bandit based NAS(KAB-NAS)方法，简单来说即处理多模态特征的L个层由single-shot的方法搜索得出，每一层都提供K个候选算子而得名。此外，作者提出一个Automatic Graph Attention Network (AGAN)模块，通过三种图结构以及self-attention机制来学习图上的信息传播，是对传统的GCN的改进。

NAS部分(非本篇的重点)

在这里插入图片描述

AGAN 自动图注意力网络

几个符号：假定进入AGAN的特征表示为图像特征 $F_I\in \R ^{K\times d}$ ，问题特征 $F_Q\in\R^{T\times d}$ ，故构建的multi-modal Graph $G = (V, E)$ ，V是所有的节点构成的集合（包含image regions与 words of question）。E是节点之间构成的边（貌似没有提这个边矩阵怎么计算得到？）。
图G中所有的顶点特征即 $F_g\in\R^{(K+T)\times d}$ ，假设使用了图卷积的层数为 $N$ ，每一层操作表示为G(.)，来更新顶点的特征表示。那么第 $t$ 层的特征 $F_{g}^{(t)}$ 可形式化为：（作者在这里还利用了一下short cut机制）
在这里插入图片描述
更具体地，

作者讲到 $A$ 是基于边集E得到的邻接矩阵(值都是binary的)， $D$ 是节点的度矩阵(只有主对角线上有值，其余位置是0)， $\sigma(.)$ 是激活函数， $W_g^{(t)}$ 是第t层图卷积的可学习参数。
一直到这里，可以看出仍然是常规的GCN网络。 $D^{-1}A$ 视为拉普拉斯矩阵。这种常规的GCN的局限性前面的博客也提到过：每个顶点视其各个邻居为同等优先级，无法为不同的邻居分配不同的权重。也即 $D^{-1}AF_g^{(t-1)}$ 相当于对每个顶点，将来自其邻居节点的特征进行平均加权。然而，这种平均的聚合并不能反映VQA图中节点之间的相互关系。

作者的改进思路：利用self-attention机制，将邻接矩阵 $A$ 改造成一个加权处理的新邻接矩阵 $A_w$
改造方式如下
在这里插入图片描述
其中 $W_i，W_j$ 是可学习矩阵。
同样地，受transformer的启发，这里令图卷积的每一层输出类似multi-head的效果，利用multi-head 多套参数的输出 concate后作为第 $t$ 个 graph layer的输出。
即将 $F_g^{(t-1)}W_i和W_jF_g^{(t-1)}$ 结果划分成K份(相当于要使用K个heads)，这样在每个graph layer上得到K个加权邻接矩阵 $A_w^0,A_w^1,...,A_w^k]$ ，最终，将这K个heads的输出concatenate。所以，最终 $G_{agan}$ 的形式表示如下
在这里插入图片描述
||代表concatenate操作。同时，作者在每一个graph layer最后还使用了FFN。
说完了self-attention结构，再来说说上文提到的三种图结构。三种结构是指使用了不同形式的邻接矩阵A，以确定不同的图上信息传播方式。

Dense graph structure 密集图

邻接矩阵A中的值全设为1。令图上各个节点间均有相关关系。

Co-graph structure 协同图

用于捕获不同模态间节点的联系。
在这里插入图片描述

Separate graph structure 稀疏图

用于捕捉模态内各节点的联系。邻接矩阵A中的内容为
在这里插入图片描述

实验结果

每个graph layer该使用上面提到的具体哪个图结构，由NAS搜索得出。
NAS搜索空间中的候选算子
在这里插入图片描述
KAB-NAS与手工设计网络结构对比

结论

在本文中，我们提出了一种新颖而有效的VQA网络架构搜索(NAS)算法，称为 (k-Armed Bandit based NAS)，该算法将每一层的设计视为一个K选一问题，并通过大量的一次性采样来估计每个候选设计。为了建立有效的搜索空间，我们还提出了一种具有三种新的图结构的自动图注意网络，它可以用来决定信息在统一正向结构中的传播方式。