（2021 ICMI）Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis

一颗2021

已于 2023-09-18 11:40:44 修改

阅读量353

点赞数

分类专栏：高水平多模态情感识别论文文章标签：人工智能深度学习论文阅读

于 2023-09-17 11:51:22 首次发布

本文链接：https://blog.csdn.net/qq_52679708/article/details/132939250

版权

高水平多模态情感识别论文专栏收录该内容

9 篇文章 14 订阅

订阅专栏

三元对称融合和二元对称

一、介绍

引入了一种称为双双峰融合网络(BBFN)的融合方案，以适当地平衡不同模态对的贡献。该融合方案由两个双峰融合模块组成，与传统的三元对称融合方案有很大的不同;见图1。由于经验表明文本模态是最重要的，模型采用两个与文本相关的模态对，TV(文本-视觉)和TA(文本-声学)，作为其两个双峰学习模块的各自输入。

然后，它迭代地推动模式通过与相应模式的互动学习来补充他们的信息。为了保证两种模式双向学习过程的公平性，每个模型中的两个学习网络应该是相同的。模型的基本框架是堆叠的transformer层。

然而，实施过程中出现了一个新的问题。随着融合的进行，与模态对相关的融合结果的表示向量在隐藏空间中趋于接近;作者称之为特征空间坍缩。此外，堆叠结构中变压器的重复结构加剧了这一趋势，损害了多模态数据中不同模态之间的相互独立性——这是多模态融合可行性的关键特性。为了解决这个问题，作者在BBFN中引入了分层特征空间分隔符，作为划分不同模态特征空间的局部正则化器，以确保模态之间的相互独立性。贡献有三，其实都是模型的设计方案。

双双峰融合: 作者提出了一种新的MSA融合方案，该方案由两个基于transformer的双峰学习模块组成，每个模块以一个模态序列对作为输入，并在其两个模态互补模块中进行局部渐进融合。

正则化: 为了确保模态表示是唯一的，并且彼此不同，作者使用了一个模态特定的特征分隔符，它隐式地聚类同质表示，并将异质表示分开，以保持模态之间的相互独立性。

控制: 引入了门控控制机制，以增强基于transformer的融合过程。

二、相关工作

三、方法

3.1 Overall Description

在这里插入图片描述
每个模块在其两个融合管道中完成一个双峰融合过程。在从底层模态序列编码器接收到上下文表示后，通过堆叠的互补层迭代地进行双峰融合。

特征空间分隔符是我们模型的另一个关键思想。每种模态都有自己的特征表示。然而，在深度神经网络中，当这些独特的单峰表示通过多层传播时，它们的相互独立性可能会受到损害，即它们可能不像最初那样可分离;我们称之为特征空间坍缩。单模态表征的可分离性及其相互独立性是多模态融合的必要条件;否则，一个模态很难通过对各自隐藏表征的异构关注从对应模态中学到新的东西。因此，我们强制这些表示来保留更多特定于模态的特征，以防止它们坍缩成一对具有相似分布的向量。

最后，传统的异构Transformer纯粹使用残差连接来组合注意结果和输入表示，而没有沿着这些向量的隐藏维度对接受和拒绝做出任何受控决策。相反，我们在变压器网络的多头注意力中加入了一种门控机制，该机制还耦合了特征分离器和变压器融合管道。

3.2 Modality Sequence Encoder

Word Embedding.
源序列 ——> Bert ——> M_t=(M₀，M₁，…，M_n+1)
Sequence Encoder.
时间序列input M_m,m∈{t,a,v} ——> 单层双线BiGRU ——> X⁰_m=(x⁰_m,0，x⁰_m,1，x⁰_m,n+1)

3.3 Modality Complementation Module

在模态互补模块中，模态表示对与对应的模态表示对交换信息，以在通过多模态互补层时“补充”缺失的线索，多模态互补层使用分层特定于模态的特征分隔符将两个融合管道互连起来。我们通过添加门控控制机制进一步改进了基于注意力的融合过程，以提高其性能和鲁棒性。该模块以堆叠方式构建，实现迭代融合程序。

***特定于模态的特征分隔符。***为了保持这些模态之间的相互独立性，我们利用了鉴别器损失所产生的正则化效应，它告诉我们在相同的互补模块中，隐藏的表征与对应的表征之间的区别有多好。根据先前的工作[16,32]，一个直接的分离方法是在总损失中添加一些几何度量作为正则化项，如(1)欧几里德距离或余弦相关，或(2)分布相似性度量，如KL-Divergence或Wasserstein距离。然而，我们选择了鉴别器损失，因为与直接使用隐藏向量的几何度量不同，它是一种参数方法，因此更适合合并到整个模型中。

从之前的互补层中收集输出X^i-1_m=(x^i-1_m,0，x^i-1_m,1，x^i-1_m,n+1)后，我们用双向GRU对序列进行编码，然后应用平均池化来获取序列级隐藏表示:
在这里插入图片描述
其中seita为第i层BiGRU的参数。这里我们选择BiGRU作为中间序列编码器，因为它的参数更少，在我们的实验中提供了与BiLSTM相当的结果。注意，到目前为止，我们只描述了单一模态的数据流。在互补模块中，在每一层i总是有两个管道并发地为两个不同的模态m1和m2生成隐藏表示序列。

接下来，我们要分离可能纠缠的中间模态表示。与之前依赖显式距离最大化的工作不同，作者训练了一个分类器来识别这些表示来自哪种模态。一种简单的方法是直接将它们全部输入到分类器中，但这可能会产生严重的问题:序列表示中的随机噪声会导致分类器在琐碎的特征上付出毫无价值的努力。我们引入了一个简单的组策略来缓解这个问题，它对同一组中的表示应用平均操作来生成更平滑的表示。具体地说，将组大小设为K后，r^th（r=1，2，…，N/K）组的表示为：
在这里插入图片描述
(这里文章复杂的数学解释跳过)
***门控互补变压器(GCT)。***我们将在互补模块内的同一融合管道中保持转发的模态称为主模态(表示为main)，将在一个管道中连接双模态融合但作为来自另一个管道的外部源的模态称为互补模态(表示为comp)。注意，区分主要和补充模式只有在特定管道的上下文中才有意义。
在这里插入图片描述

跨模态融合过程主要发生在多头注意力操作中，我们发现由于缺乏信息流控制，该过程表现出次优性能。为了以细粒度和可控的方式改进它，我们引入了两个栅极:保留栅极g_r，它决定了目标模态中有多少比例的成分要保持转发;复合栅极g_c，它决定了有多少比例的复合成分要注入目标模态。我们从同一层中两个模态的序列表示中生成这两个门信号:
在这里插入图片描述
接下来的解释为原文：

3.4 Output Layer and Training

由于在两个多模态互补层中每个都有两个头部，因此将这四个头部的所有输出连接在一起可以得到最终的表示h_final∈R^4d，其中每个头部输出的维度为d。最后，将表示向量馈送到前馈网络以产生最终的预测y^。
损失函数为任务损失（BCE、MAE）加上每层的分离损失：在这里插入图片描述

实验

在这里插入图片描述

消融实验

一颗2021

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
（2021 ICMI）Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis

多模态情感分析旨在提取和整合从多模态中收集到的语义信息，以识别多模态数据中所表达的情感和情绪。该研究领域的主要关注点在于开发一种特殊的融合方案，可以从各种模式中提取和整合关键信息。然而，以前的工作受到缺乏利用独立性和相关性的动态模式达到最高绩效的限制。为了缓解这一问题，我们提出了双双峰融合网络(BBFN)，这是一种新型的端到端网络，对两两模态表示进行融合(相关增量)和分离(差异增量)。这两个部分同时训练，以模拟它们之间的战斗。由于已知模态之间的信息不平衡，该模型采用两个双峰对作为输入。
复制链接

扫一扫