CVPR 2020 HAN:《Hypergraph Attention Networks for Multimodal Learning》论文笔记

最新推荐文章于 2024-06-16 20:34:49 发布

NeverMoreH

最新推荐文章于 2024-06-16 20:34:49 发布

阅读量2.7k

点赞数 1

分类专栏： vision&language # others 文章标签： CVPR2020 HAN Kakao 多模态

本文链接：https://blog.csdn.net/ms961516792/article/details/107062456

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

others

7 篇文章 0 订阅

订阅专栏

简介

本文提出了一种用于多模态学习的超图注意力网络，作者来自Kakao公司和首尔大学。
Kakao公司的主要产品是Kakao talk，类似于国内的微信，且腾讯是其第二大股东。
Kakao Brain这个团队比较出名的是在NeurlPS2019上的Fast autoaugment这篇文章，大家可以关注一下。
下载链接
 Kakao团队的视频讲解。

动机

不同模态信息的level是不同的，也就是不同模态之间存在gap。
现有的多模态学习方法：1. 将不同模态的数据，经过预处理、预训练后，得到特征向量。2. 将不同模态的特征向量集成到公共向量空间。3. 添加一个problem-specific模块。这样做的弊端是：不同模态的特征，重要性相同。

贡献

使用符号图作为多模态学习的公共语义空间。
提出HANs（Hypergraph Attention Networks，超图注意力网络），考虑结构相似度（高等级语义相似度）构造co-attention。
在GQA数据集上由54.6%提升至61.88%。

方法

本文方法的整体框架如图所示，用符号图定义不同模态之间的公共语义空间，并根据语义空间中所构造的co-attention map提取不同模态的联合表示。

从上图中可以看出，方法分为3个部分，分别是Sec 3.1 构造符号图（Constructing Symbolic Graphs）、Sec 3.2 构造超图（Constructing the Hypergraphs）、Sec 3.3 生成Co-attention（Building Co-attention Maps between Hypergraphs）和Sec 3.4 获得最终表达（Getting Final Representations）。
Sec 3.1 构造符号图。对于Image，使用[14]获得场景图（CVPR2015）。对于text，使用Spacy library获得依赖树。
Sec 3.2 构造超图。生成超图的过程，使用随机游走算法。初始node随机选择，然后根据转移矩阵进行随机游走。注意，作者把每一个sub-graph也叫作hyperedge（超边）。
Sec 3.3 生成Co-attention。对两个超图中的超边，计算相似度，得到co-attention。相似度计算方法采用低秩双线性池化（low-rank bilinearpooling method，主要用于特征聚合）。
Sec 3.4 获得最终表达。这部分使用双线性操作（bilinear operator），作者用了两种方法：BAN（NIPS2018）和MFB（TNNLS2018），并在实验部分做了对比。