读《MTGAT: Multimodal Temporal Graph Attention Networks for Unaligned Human Multimodal Language Seque》

2020

摘要

将未对齐的多模态序列数据转换为具有异构节点和边的图,该图捕获了不同模态之间时间的丰富交互。

引言

在分析这样的多模态序列数据时,关键是要利用一个能够精确而有效地执行融合和对齐的模型,它可以通过
a)以一种可解释的方式对齐任意分布的异步模式,
b)有效地计算短期和长期依赖关系,
C)明确地模拟模态之间的多模态相互作用,同时考虑模型内交互。

本文扩展了图注意网络(GAT)(Veliˇckovi‘c等人,2018年),以学习异步多模态序列数据的融合和对齐。对于MTGAT,这些模式不需要预先对齐,也不需要遵循相同的采样率(如之前模型的要求(Chenetal.2017)

相关工作

多模态语言分析

早期的方法假设它们接收到的多模态序列是基于单词边界对齐的。迄今为止,在深度学习中,除了Tsai等人(2019a),建模未对齐的多模态语言序列,他们提出使用跨模态变压器来建模未对齐的多模态语言序列。
然而,跨模态变压器模块是一种双模态模块,它一次只能考虑两种模态的输入。因此,Tsai等人(2019a)使用了多个跨模态变压器,并应用后期融合技术获得了三模态特征,因此需要大量的参数来保留原始模态信息。相比之下,我们提出的图方法,使用非常少的模型参数,可以在早期阶段聚合来自多个(超过2个)模式的信息,允许学习更丰富、更复杂的交互表示(本文是从复杂度方面权衡图模型和transformer)

最近,人们提出了更多异构的GNN方法(Wang等人2019a;Wei等人2019;Shi等人2016)。这些方法假设节点代表异构数据。这些工作中提到的异构节点由不同的数据实体组成,而不是同一个数据实体的不同视图。在NLP领域,我们已经看到多模态GNN方法(Khademi2020;Yin等人,2020)被提出用于同一数据实体的不同视图,如视觉问题回答和机器翻译。然而,这些多模态数据仍然不同于我们的设置,因为它们大多是静态图片和短文本,不像视频数据那样具有时间性质。据我们所知,关于使用基于图形的方法对包括视频、自动和文本在内的人类多模态语言数据进行建模的研究还很少。在本文中,我们证明了用所提出的基于MTGAT图的方法来建模这些数据的有效性。

方法

在这里插入图片描述

位置嵌入

位置嵌入由于图神经网络没有递归性,我们需要向每个节点注入位置信息。为此,我们在被用作图的输入之前,向每个节点的特征向量添加一个位置嵌入。位置信息是基于节点在序列中的位置。具体的实现类似于transformer模型中使用的实现(Vaswanietal.2017),其中使用了固定的、交错的正弦和余弦嵌入:
在这里插入图片描述
(原来这个像奇偶滤波器一样搞三角函数的公式transformer里就已经有了啊)

构造有向图,使用的注意操作也是不对称的;因此,边(i,j)的语义与边(j,i)有不同的语义。
于是有模态类型标识符φ∈ {A-A, A-V, A-T, V-A, V-V, V-T, T-A, T-V, T-T}标记每条边来构造多模态边

伪对齐和时间边

考虑情绪变化所以是有向边,这里给边定义了时间类型τ∈{过去,现在,未来}(所以有了3x9=27种类型的边)

融合和修剪

多模态时间图注意


先各模态分别线性变换
然后计算注意力系数β,然后softmax归一化后用来算对应某一节点的所有邻居信息的加权和作为聚合过程(就像GNN的那种感觉)。从而现在的新的节点嵌入是个多模态的
在这里插入图片描述

动态边缘修剪

对所有27种边做交互就复杂度很大,所以(李,李,和康2019;Knyazev,泰勒和阿默尔2019)等的支持下采用剪枝

图读出(就是图池化的另一种叫法吧)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值