CVPR 2020 HAN:《Hypergraph Attention Networks for Multimodal Learning》论文笔记

简介

本文提出了一种用于多模态学习的超图注意力网络,作者来自Kakao公司和首尔大学。
Kakao公司的主要产品是Kakao talk,类似于国内的微信,且腾讯是其第二大股东。
Kakao Brain这个团队比较出名的是在NeurlPS2019上的Fast autoaugment这篇文章,大家可以关注一下。
下载链接
Kakao团队的视频讲解

动机

不同模态信息的level是不同的,也就是不同模态之间存在gap。
现有的多模态学习方法:1. 将不同模态的数据,经过预处理、预训练后,得到特征向量。2. 将不同模态的特征向量集成到公共向量空间。3. 添加一个problem-specific模块。这样做的弊端是:不同模态的特征,重要性相同。

贡献

  1. 使用符号图作为多模态学习的公共语义空间。
  2. 提出HANs(Hypergraph Attention Networks,超图注意力网络),考虑结构相似度(高等级语义相似度)构造co-attention。
  3. 在GQA数据集上由54.6%提升至61.88%。

方法

本文方法的整体框架如图所示,用符号图定义不同模态之间的公共语义空间,并根据语义空间中所构造的co-attention map提取不同模态的联合表示。

从上图中可以看出,方法分为3个部分,分别是Sec 3.1 构造符号图(Constructing Symbolic Graphs)、Sec 3.2 构造超图(Constructing the Hypergraphs)、Sec 3.3 生成Co-attention(Building Co-attention Maps between Hypergraphs)和Sec 3.4 获得最终表达(Getting Final Representations)。
Sec 3.1 构造符号图。对于Image,使用[14]获得场景图(CVPR2015)。对于text,使用Spacy library获得依赖树。
Sec 3.2 构造超图。生成超图的过程,使用随机游走算法。初始node随机选择,然后根据转移矩阵进行随机游走。注意,作者把每一个sub-graph也叫作hyperedge(超边)。
Sec 3.3 生成Co-attention。对两个超图中的超边,计算相似度,得到co-attention。相似度计算方法采用低秩双线性池化(low-rank bilinearpooling method,主要用于特征聚合)。
Sec 3.4 获得最终表达。这部分使用双线性操作(bilinear operator),作者用了两种方法:BAN(NIPS2018)和MFB(TNNLS2018),并在实验部分做了对比。

实验

下表是在GQA数据集上的实验结果

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值