Image-Text Interaction Network(CCF B)

Zhu T, Li L, Yang J, et al. Multimodal sentiment analysis with image-text interaction network[J]. IEEE Transactions on Multimedia, pages 1–1, 2022(CCF B类)

目录

一、本文贡献

二、本文所提出的方法

1.模型框架

2.图像文本交互

(1)Cross-modal Alignment Module

(2)Cross-modal Gating Module

(3)语境信息提取

(4)Multimodal Sentiment Classification

三、实验

1.在MVSA-S和在MVSA-M上的实验结果

2.消融实验的实验结果

3.案例分析


一、本文贡献

  1. 提出一种新的针对于多模态情感分析的图像文本交互网络。该方法通过对齐情感图像区域和文本词用于分析图像文本交互
  2. 基于跨模态的注意力机制提出了一种跨模态的对齐模块,用来捕获图像区域和文本单词之间的细粒度对应关系;为抑制错位对齐的区域单词对所产生的消极影响,提出一个自适应的跨模态门模块融合多模态特征。
  3. 大量的实验验证了本文方法的优点。进行消融实验,验证方法的合理性。

二、本文所提出的方法

1.模型框架

2.图像文本交互

(1)Cross-modal Alignment Module

       跨模态对齐模块目的是在嵌入空间中对齐图像区域和句子中的单词

       图像区域特征提取:对于输入的图像I,使用在Visual Genomes数据集上预训练的Faster R-CNN检测图像区域以及相关的表示。取每个图像的前m个区域提示框,每个区域是一个2048维的向量,定义为𝑓𝑖,i=1,2,3…m。通过一个线性映射将𝑓𝑖到维度为d的区域特征𝑟𝑖。

        文本特征提取:使用预训练的Bert-Base将具有n个词的句子中的每一个词表示为768维的向量𝑥𝑖,i∈[1,n]。然后使用双向GRU概括句子中的上下文信息。

第一个h𝑖指前向传播的隐藏状态,第二个h𝑖指反向传播的隐藏状态,最终的词向量𝑤𝑖为两个方向的隐藏状态取平均。

已知区域级别的特征集 R={r1,…,rm} 和单词级别的特征集 W={w1,….,wn} 。使用跨模态注意力机制,模型可以根据每一个图像区域特征关注句子中的单词,从而发现和每一个区域特征最相关的文本信息。

注意力矩阵计算过程:

通过两个矩阵Wr和Wt,将R和W映射到同一个共享空间中,随后进行矩阵乘法得到注意力分数矩阵A,A∈𝑅𝑚∗𝑛。𝐴𝑖𝑗揭示着第i个区域和第j个单词之间的关系。

对矩阵A在每一行上使用softmax函数,使得矩阵A的行和为1,得到每一个单词与相应图像区域的关联程度。

使用规范化的矩阵A,根据每一个图像区域聚集所有的词向量。U的第i行表示与图像第i个区域对应的交互文本向量。

(2)Cross-modal Gating Module

       跨模块对齐模块生成了与每一个区域最相关的词语级别的特征信息。然而不是所有得到的区域文本对可以很好地对齐。该模块通过控制特征融合的强度,消除未对齐的区域文本对的影响,增强跨模态信息的交互。

       通过计算gate value评估对齐程度,

接下来使用gate value控制向后面传递的信息量,若图像区域和相应的单词对齐的很好,那么gate value就大;若图像区域和相应的单词对齐的不好,那么gate value的值就小,小的值可以达到抑制消极信息的目的。

由于图像使用了m个区域,所以最终得到的Z={z1,z2,…,zm},Z的size为(m,d)。Z是一个融合特征,暗含图像区域和词之间的对齐信息。

最后,使用注意力机制聚集特征Z得到整个输入的图像文本对的表示C。

(3)语境信息提取

       同一个物体在不同的语境中会表达不同的情感,使用Faster R-CNN提取区域特征并不涉及语境信息的提取。针对图像,使用在ImageNet上预训练的ResNet提取图像的语境信息。

针对于文本,使用双向GRU的文本特征表示中已经包含了语境信息,所以选择对所用的文本向量执行求和取平均的操作获得文本的语境信息。

接下来将图像语境信息V和文本语境信息S加入到向量C中。F为最终的跨模态交互向量,F中含有对齐信息和语境信息

(4)Multimodal Sentiment Classification

       将特征向量F送入到softmax层预测最终的情感类别。

三、实验

1.在MVSA-S和在MVSA-M上的实验结果

2.消融实验的实验结果

(1)没有对齐层的ITIN效果更差,这证明了对齐图像区域和文本单词的有效性

(2)不使用Gating的ITIN效果差于ITIN,表明门控机制可以进一步增强跨模态交互作用。

(3)不使用Context的ITIN效果差于ITIN,验证了语境信息对情感分类任务的补充作用。

(4)ITIN w/o Context和ITIN only Context的结果比较,表明细粒度的跨模态交互有利于多模态情感分析。

3.案例分析

       第一列是输入的image-text pair,第二列是用彩色边框标记的图像区域和对应的不同深浅颜色的文本单词,其中单词的权重越大,颜色也就越深。通过颜色识别图像区域和文本之间的对应关系。第三列是区域文本对的gate value,可以发现对齐的区域文本对的gate value的值大,对不不匹配的则gate value的值就小。

### 跨模态注意力机制实现代码示例 为了展示跨模态注意力机制的具体实现方法,下面提供了一个简化版的PyTorch代码片段。该例子假设存在两种不同的输入模式——文本和图像,并尝试在这两者之间建立关联。 ```python import torch from torch import nn, Tensor from typing import Tuple class CrossModalAttention(nn.Module): """定义一个简单的跨模态注意力建模类""" def __init__(self, d_model: int, n_heads: int) -> None: super(CrossModalAttention, self).__init__() self.multihead_attn = nn.MultiheadAttention(embed_dim=d_model, num_heads=n_heads) def forward(self, query: Tensor, key: Tensor, value: Tensor) -> Tuple[Tensor]: attn_output, _ = self.multihead_attn(query=query, key=key, value=value) return attn_output def cross_modal_attention_example(text_input: Tensor, image_input: Tensor) -> Tensor: """ 创建并调用CrossModalAttention模块, 输入分别为文本特征向量和图片特征向量。 参数: text_input (Tensor): 文本嵌入矩阵 [seq_len_text, batch_size, embed_dim] image_input (Tensor): 图像嵌入矩阵 [seq_len_image, batch_size, embed_dim] 返回: output (Tensor): 经过跨模态注意力变换后的输出张量 """ # 假设d_model=512,n_heads=8作为超参数设置 model = CrossModalAttention(d_model=512, n_heads=8).cuda() # 将两个模态的数据送入模型中进行处理 output = model.forward( query=text_input.cuda(), # 使用文本作为查询(Query) key=image_input.cuda(), # 使用图像作为键(Keys) value=image_input.cuda() # 同样使用图像作为值(Values),这里可以根据需求调整 ) return output.cpu() ``` 在这个案例里,`cross_modal_attention_example()` 函数接收来自不同源(比如自然语言描述的文字串和对应的插图)的两组预处理过的特征表示 `text_input` 和 `image_input` 。接着创建了 `CrossModalAttention` 类型的对象来进行跨模态间的交互分析[^3]。 通过这种方式,不仅可以有效地提取每种单独媒体内的局部特性,而且能够发现它们之间的潜在联系,从而增强最终决策的质量。这种技术广泛应用于视觉问答系统、图文检索等领域,在这些场景下往往需要综合考虑多个感知通道的信息来做出更加精准的回答或匹配[^2]。
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值