【NLP】文献翻译4——CH-SIMS：中文多模态情感分析数据集与细粒度的模态注释

最新推荐文章于 2024-11-05 16:42:49 发布

Yang SiCheng

最新推荐文章于 2024-11-05 16:42:49 发布

阅读量1.4w

点赞数 17

分类专栏：【自然语言处理】文章标签：人工智能自然语言处理 nlp 神经网络 python

本文链接：https://blog.csdn.net/qq_41897800/article/details/115792735

版权

【自然语言处理】专栏收录该内容

19 篇文章

订阅专栏

本文介绍了一个新型中文多模态情感分析数据集CH-SIMS，该数据集具有细粒度的模态注释，可用于单模态和多模态情感分析。此外，还提出了一种多模态多任务学习框架，实验证明该框架能有效提高模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality

摘要
1. 介绍
2. 相关工作
3. CH-SIMS 数据集
4. 多模式多任务学习框架
5. 实验
6. 消融研究
7. 结论

文献信息：
标题：CH-SIMS：中文多模态情感分析数据集与细粒度的模态注释
作者：Wenmeng Yu, Hua Xu, Fanyang Meng, Yilin Zhu, Yixiao Ma, Jiele Wu, Jiyun Zou, Kaicheng Yang
时间：2020.7
机构：北京清华大学计算机科学与技术系智能技术与系统国家重点实验室，北京国家信息科学与技术研究中心
会议：ACL
发布者：计算语言学协会

摘要

以往多模态情感分析的研究都是使用有限的数据集，这些数据集只包含统一的多模态注释。然而，统一的注释并不总是反映单一模态的独立情感，并且限制了模型对模态之间差异的捕捉。本文介绍了一个中文单模态和多模态情感分析数据集CH-SIMS，该数据集包含了2281个经过精炼的视频片段，同时具有多模态和独立的单模态注释。它允许研究人员研究模态之间的相互作用，或者使用独立的单模态注释进行单模态情感分析。此外，我们提出了一个基于后期融合的多任务学习框架作为基线。在CH-SIMS上的广泛实验表明，我们的方法达到了最先进的性能，并且可以学习到更多独特的单模态表示，完整的数据集和代码可在Github网站获得，以供使用

1. 介绍

情感分析是自然语言处理（NLP）的一个重要研究领域。它在其他NLP任务中有着广泛的应用，如意见挖掘、对话生成和用户行为分析等。以往的研究（Pang等，2008；Liu和Zhang，2012）主要集中在文本情感分析上，并取得了令人印象深刻的成果。然而，仅使用文本不足以判断说话者的情感状态，文本可能会产生误导。随着短视频应用的蓬勃发展，引入了非语言行为（视觉和音频）来解决上述不足（Zadeh等，2016；Poria等，2017）

在多模态情感分析中，模态内表示和模态间融合是两个重要且具有挑战性的子任务(Baltrusaitis et al. , 2018; Guo et al. , 2019)。对于模态内表示，必须考虑不同模态的时间或空间特征。基于卷积神经网络(CNN)、长短期记忆(LSTM)网络和深度神经网络(DNN)的方法是提取单模态特征的三种代表性方法(Cambria等，2017；Zadeh等，2017，2018a)。对于模态间融合，近年来提出了许多方法。例如，协整(concatenation)（Cambria等，2017）、张量融合网络（Tensor Fusion Network, TFN）（Zadeh等，2017）、低阶多模态融合（Lowrank Multimodal Fusion, LMF）（Liu等，2018）。记忆融合网络（Memory Fusion Network, MFN）（Zadeh等，2018a）、动态融合图（Dynamic Fusion Graph, DFG）（Zadeh等，2018b）等。在本文中，我们主要考虑先进行模态内表征学习，再采用模态间融合的后期融合方法。一个直观的想法是，模态间表征的差异越大，模态间融合的互补性越好。然而，现有的后期融合模型不容易学习不同模态之间的差异，进一步限制了融合的性能。原因在于，现有的多模态情感数据集只包含每个多模态片段的统一多模态标注，并不总是适合所有模态。换句话说，在模态内表征学习过程中，所有模态都共享一个标准注释。此外，这些统一的监督将引导模态内表征更加一致，减少差异性。

在这里插入图片描述

图1：CH-SIMS和其他数据集之间的注释差异的一个例子。对于每个多模态片段，除了多模态注释，我们提出的数据集还有独立的单模态注释。M：多模态，T：文本，A：音频，V：视觉

为了验证上述分析，本文提出了一个具有独立单模态注释的中文多模态情感分析数据集CH-SIMS。图1显示了我们提出的数据集与其他现有多模态数据集的标注差异实例。SIMS有2,281个精炼的视频片段，收集自不同电影、电视连续剧和综艺节目的自发表情、各种头部姿势、遮挡和照明。CHEAVD（Li等，2017）也是中国的多模态数据集，但它只包含两种模态（视觉和音频）和一个统一的注释。相比之下，SIMS除了每个片段的多模态标注外，还有三种模态和单模态标注。因此，研究人员可以利用SIMS来完成单模态和多模态的情感分析任务。此外，研究人员还可以利用这些额外的注释开发出多模态情感分析的新方法。

基于SIMS，我们提出了一个使用单模态和多模态标注的多模态多任务学习框架。在这个框架中，单模态和多模态任务共享底部的特征表示子网络。它适用于所有基于后期融合的多模态模型。然后，我们将TFN、LMF和Late-Fusion DNN（LFDNN）等三种晚期融合模型引入到我们的框架中。在单模态任务的情况下，多模态任务的性能显著提高。此外，我们对多模态情感分析、单模态情感分析和多任务学习做了详细的讨论。最后，我们验证了单模态标注的引入可以有效扩大不同模态之间的差异，在模态间融合中获得更好的性能。

在这项工作中，我们为多模态情感分析提供了一个新的视角。我们在本文中的主要贡献可以概括为以下几点：

我们提出了一个具有更精细的模态注释的中文多模态情感分析数据集——CH-SIMS，这些附加的注释使得我们的数据集既可以用于单模态的情感分析，也可以用于多模态的情感分析
我们提出了一个多模态多任务学习框架，它适用于多模态情感分析中所有的latefusion方法。此外，我们在这个框架中引入了三个后期融合模型作为SIMS的强基线。
SIMS上的基准实验表明，我们的方法可以学习到更多独特的单模态表示，并实现了最先进的性能。

2. 相关工作

在本节中，我们简要回顾了多模态数据集、多模态情感分析和多任务学习的相关工作。

2.1 多模态数据集

为了满足多模态情感分析和情感识别的需求，研究者们提出了多种多模态数据集，包括IEMOCAP（Busso等，2008）、YouTube（Morency等，2011）、MOUD（Perez-Rosas等，2013）、ICT-MMMO（Wollmer等，2013）、MOSI（Zadeh等，2016）、CMU-MOSEI（Zadeh等，2018b）等。此外，Li等人（2017）提出了中文情感视听数据集，Poria等人（2018）提出了多方情感、对话数据集，每段对话包含两个以上的说话者。然而，这些现有的多模态数据集只包含每个多模态语料的统一多模态标注。相比之下，SIMS包含了单模态和多模态注释。

2.2 多模态情感分析

多模态情感分析已经成为整合语言行为和非语言行为的重要研究课题。Cambria等(2017)提出了一个通用的多模态情感分析框架，该框架由模态内的表征学习和模态间的特征连通组成。基于该框架，许多研究集中在设计新的融合网络，以捕获更好的多模态表征，实现更好的性能。Zadeh等(2017)提出了一种张量融合网络，通过计算单模态表示之间的外积获得新的张量表示。Liu et al.(2018)采用低阶多模态融合方法对权重张量进行分解，降低了基于张量方法的计算复杂性。Zadeh等(2018a)设计了一个具有特殊关注机制的记忆融合网络，用于跨视角交互。Tsai等（2019）提出了跨模态变换器，通过学习跨两个模态特征的注意力，从另一个源模态强化目标模态。Tsai等（2018）通过将表征因子化为两组独立因子：多模态辨别因子和模态特定生成因子，学习有意义的多模态表征。与上述方法不同，我们旨在通过引入独立的单模态注释来学习更有特色的单模态表征。

2.3 多任务学习

多任务学习旨在通过利用这些任务中包含的有用信息来提高多个相关任务的泛化性能（Zhang和Yang，2017）。一个经典的方法是，不同的任务共享前几层，然后在后续的几层中具有特定的任务参数（Liu等，2015；Zhang等，2016b）。基于这种方法，我们设计了一个多模态多任务学习框架，用于验证独立单模态标注的实用性和可行性。

3. CH-SIMS 数据集

在本节中，我们将介绍一个具有独立单模态注释的新型中文多模态情感分析数据集——CH-SIMS。在下面的小节中，我们将详细介绍数据获取、标注和特征提取的过程。

3.1 数据获取

与单模态数据集相比，多模态数据集的要求相对较高。一个基本的要求是说话人的脸和声音必须同时出现在画面中，并在特定的时间段内保持。在这项工作中，为了获取尽可能贴近生活的视频片段，我们从电影、电视剧和综艺节目中收集目标片段。在获得原始视频后，我们使用视频编辑工具Adobe Premiere Pro，对目标片段进行帧级裁剪，虽然非常耗时，但足够准确。此外，在数据收集和裁剪的过程中，我们执行以下约束条件：

我们只考虑普通话，对带有重音的材料的选择保持谨慎
剪辑的长度不少于一秒且不超过十秒
对于每个视频剪辑，除了说话人的脸之外，没有其他脸出现

最后，我们收集了60个原始视频，获取了2281个视频片段。SIMS具有丰富的人物背景，年龄跨度大，质量高。表1为SIMS的基本统计(我们咨询了法律办公室，以验证很短长度视频的学术使用和分发是否属于合理使用类别)

在这里插入图片描述

3.2 标注

我们对每个视频片段进行一次多模态标注和三次单模态标注。除了工作量的增加，不同模态之间的相互干扰也比较混乱。为了尽可能的避免这个问题，我们主张每个标注者在标注时只能看到当前模态的信息。此外，不允许同时进行四个标注。更准确的说，每个标注者先进行单模态标注，然后再进行多模态标注，其顺序是先文字，后音频，然后是无声视频，最后是多模态。

对于每个片段，每个注释者决定其情感状态为-1（消极）、0（中性）或1（积极），我们有五个独立的学生在这个领域进行注释。然后，为了同时完成回归和多分类任务，我们对五个标注结果进行平均。因此，最终的标注结果是{-1.0，-0.8，-0.6，-0.4，-0.2，0.0，0.2，0.4，0.6，0.8，1.0}中的一个。我们又将这些数值分为5个分类：负值{-1.0，-0.8}，弱负值{-0.6，-0.4，-0.2}，中性{0.0}，弱正值{0.2，0.4，0.6}，正值{0.8，1.0}。

图2左边的直方图显示了情绪在整个数据集上的分布，四个注释。我们可以看到，负面片段比正面片段多。主要原因是影视剧中的演员在负面情绪上的表现力要比正面情绪强。图2右侧的混淆矩阵表示不同模态之间的注释差异，计算结果为：
$D_{i j}=\frac{1}{N} \sum_{n=1}^{N}\left(A_{i}^{n}-A_{j}^{n}\right)^{2}$
其中 $\in\{m, t, a, v\}$ ，N是所有采样点的个数， $A_i^n$ 代表在模型i中第 $n_{th}$ 标签的值

在这里插入图片描述

图2：左图：一个多模态标注和三个单模态（文本、音频和视觉）标注中的情感在整个数据集上的分布。右图：混淆矩阵显示了CH-SIMS中不同模态之间的标注差异。值越大，差异越大

从混淆矩阵可以看出，A和M之间的差异最小，V和T之间的差异最大，符合预期。因为音频包含文字信息，更接近于多模态，而视频和文字之间的联系是稀疏的。

此外，我们还提供了其他属性标注，包括说话人的年龄和性别。而我们在下面的实验中只使用感性标注。

3.3 特征提取

所有模态的提取特征如下（我们在所有实验中都使用相同的基本特征）：

Text: 所有视频都由人工转录，包括中文和英文版本。我们只使用中文转录。我们为每篇转录稿添加两个唯一的标记来表示开始和结束。而后，使用预先训练好的中文BERTbase词嵌入来从转录本中获得词向量（Devlin等，2018）。值得注意的是，由于BERT的特性，我们并没有使用单词分割工具。最终，每个词都被表示为768维的词向量。
Audio: 我们使用LibROSA(McFee等人，2015年)语音工具包，以默认参数提取22050Hz的声学特征。总共提取了33个维度的帧级声学特征，包括1维对数基频（log F0）、20维Melfrequency cepstral coefficients（MFCCs）和12维Constant-Q chromatogram（CQT）。根据（Li等，2018）这些特征与情绪和语气有关。
Vision: 以30Hz的频率从视频片段中提取帧。我们使用MTCNN人脸检测算法（Zhang等人，2016a）来提取对齐的人脸。然后，遵循Zadeh等人（2018b），我们使用MultiComp OpenFace2.0工具包（Baltrusaitis等人，2018）提取68个面部地标、17个面部动作单元、头部姿势、头部方向和眼睛注视的集合。最后，共提取了709个维度的帧级视觉特征。

4. 多模式多任务学习框架

在本节中，我们描述了我们提出的多模态多任务学习框架。如图3所示，基于后期融合的多模态学习框架（Cambria等人，2017；Zadeh等人，2017），我们为三个单模态表示增加了独立的输出单元：文本、音频和视觉。因此，这些单模态表征不仅参与特征融合，而且用于生成其预测性输出。
在这里插入图片描述

图3：多模式多任务学习框架

为了便于以下介绍，对于text,andio,vision，我们假设 $L^u, D_i^u, D_r^u$ 其中 $\in {t, a, v}$ ，代表句子长度，通过3.3提取的初始特征维度，以及单维特征提取器分别学习的表示维数，batch size为B

4.1 单模态子网

单模态子网旨在从初始特征序列中学习模态内表示。一个通用特征提取器可以形式化为：
$R_{u}=S_{u}\left(I_{u}\right)$
其中： $I_{u} \in R^{B \times L^{u} \times D_{i}^{u}}, R_{u} \in R^{B \times D_{r}^{u}} . S_{u}(\bullet)$ 是模态u的特征提取器网络。

在这项工作中，继Zadeh等人（2017）；Liu等人（2018）之后，我们使用长短期记忆（LSTM）（Hochreiter和Schmidhuber，1997）网络、具有三个隐藏层权重 $W_a$ 的深度神经网络和具有三个隐藏层权重 $W_v$ 的深度神经网络分别提取文本、声学和视觉嵌入。

4.2 特征融合网络

特征融合网络的目的是学习三种单模态表征的模态间表征，公式为：
$R_{m}=F\left(R_{t}, R_a, R_v\right)$
其中： $R_{t}, R_a, R_v\in{R^{B \times D_{r}^{u}}}$ 是单模态表示， $F(\bullet)$ 是特征融合网络， $R_m$ 是融合表示。

在这项工作中，为了与现有工作进行全面比较，我们尝试了三种融合方法：LF-DNN，TFN（Zadeh等人，2017）和LMF（Liu等人，2018）。

4.3 优化目标

除了在不同任务中的训练损失外，我们通过L2规范对共享参数进行稀疏化，目的是选择模态内特征。因此，我们的优化目标是：
$\min \frac{1}{N_{t}} \sum_{n=1}^{N_{t}} \sum_{i} \alpha_{i} L\left(y_{i}^{n}, \hat{y}_{i}^{n}\right)+\sum_{j} \beta_{j}\left\|W_{j}\right\|_{2}^{2}$

其中 $N_{t}$ 是训练采样点的个数， $\in\{m,t,a,v\}, j\in\{t,a,v\}$ 。 $L\left(y_{i}^{n}, \hat{y}_{i}^{n}\right)$ 表示模态i中第n个样本的训练损失， $W_j$ 是模态j和多模态任务中的共享参数， $\alpha_{i}$ 是平衡不同任务的超参数， $\beta_{j}$ 代表子网j的权重衰减步数。

最后，我们使用三层DNN来生成不同任务的输出。在这项工作中，我们将这些任务视为回归模型，并将L1损失作为公式4中的训练损失。

5. 实验

在本节中，我们主要探讨使用SIMS的以下问题：

多模态情感分析：我们评估了多模态多任务学习方法与其他方法的性能比较。目的是验证多任务学习与单模态注释的优势，并为SIMS建立多模态基线。
单模态情感分析：我们仅用单模态或多模态注释分析单模态任务的性能。目的是验证多模态分析的必要性，并为SIMS设定单模态基线。
表征差异：我们使用t-SNE来可视化模型的单模态表征，无论是否有独立的单模态注释。目的是为了证明使用单模态注释后，学习到的单模态表征更有特色。

5.1 基准

在本节中，我们简要回顾一下以下实验中使用的基准：

早期融合LSTM：早期融合LSTM(EF-LSTM)(Williams等，2018)先将三个模态的初始输入连在一起，然后使用LSTM来捕捉序列中的长距离依赖关系。
后期融合DNN：与EF-LSTM相比，后期融合DNN(LF-DNN)先学习单模态特征，然后在分类前将这些特征进行串联。
记忆融合网络：记忆融合网络（Memory Fusion Network，MFN）（Zadeh et al.，2018a）对特定视图和跨视图的交互进行核算，并通过特殊的注意力机制对其进行持续建模，并通过多视图门控记忆进行时间总结。MFN需要在三个模态中进行词级对齐。然而，这对于SIMS来说并不容易，因为我们还没有找到可靠的中文语料对齐工具。在这项工作中，我们遵循Tsai等人（2019）使用CTC（Graves等人，2006）作为替代。
低阶多模态融合：低阶多模态融合（LMF）（Liu等，2018）模型通过与模态特定的低阶因子进行高效的多模态融合来学习模态特定和跨模态的相互作用。
张量融合网络：张量融合网络(TFN)(Zadeh等人，2017)通过创建一个多维张量，捕捉单模态、双模态和三模态三种模态之间的相互作用，明确地对特定视图和跨视图动态进行建模。
多模态变换器：多模态变换器（Multimodal Transformer）（Tsai等，2019）利用定向对向的跨模态注意力，实现多模态序列之间跨不同时间步长的交互，并将流从一种模态潜移默化地调整到另一种模态。

5.2 实验的细节

在本节中，我们将详细介绍我们的实验设置，包括数据集分割、超参数选择和我们的评估指标。

数据集拆分：我们先对所有视频片段进行随机洗牌，然后按多模态注释划分训练、评估和测试分割。详细的分割结果如表3所示。

表3：SIMS中的数据集拆分。我们在6：2：2分割训练，有效和测试集。 NG：阴性，WN：弱阴性，NU：中性，WP：弱阳性，PS：阳性

在这里插入图片描述

超参数选择：由于不同段的序列长度不同，因此有必要针对具体模态固定序列长度。根据经验，我们选择平均长度加上3倍标准差作为序列的最大长度。此外，对于所有的基线和我们的方法，我们使用具有二元分类精度的网格搜索调整其超参数。为了公平比较，在每次实验中，我们选择五个相同的随机种子（1，12，1234，1234和12345），并报告五次的平均性能。
评价指标：与Liu等人（2018）；Zadeh等人（2018b）相同，我们以两种形式记录实验结果：多类分类和回归。对于多类分类，我们报告加权F1得分和多类精度Acc-k，其中k∈{2，3，5}。对于回归，我们报告平均绝对误差（MAE）和皮尔逊相关（Corr）。除了MAE之外，所有指标的数值越高表示性能越好。

5.3 结果和讨论

在本节中，我们介绍并讨论第5节中介绍的研究问题的实验结果。

5.3.1 与基准比较

我们将三种新方法与上述基准进行比较。在这一部分中，我们仅考虑多模态评价结果虽然新方法是多任务。结果如表2所示。与单任务模型相比，多任务模型在大部分评价指标上有更好的表现。特别是在除Acc-5以外的所有评价指标中，三种改进模型(MLF-DNN、MLFM和MTFN)与相应的原始模型(LF-DNN、LFM和TFN)相比都有明显的提升。以上结果表明，在多模态情感分析中引入独立的单模态标注，可以显著提高现有方法的性能。同时，我们也发现，一些方法，如MULT，在现有的公共数据集上表现良好，而在SIMS上的表现并不理想。这进一步说明，设计一个稳健的、跨语言的多模态情感分析模型仍然是一项具有挑战性的任务，这也是我们提出这个数据集的动机之一。

在这里插入图片描述

表2：CH-SIMS数据集上的情感分析结果（%）。带∗的模型是多任务模型，通过引入独立的单模注释从单任务模型扩展而来。例如，MLF-DNN∗是LF-DNN的扩展。带∇的行表示在当前评价指标中，新模型与原模型相比的改进或减少。

5.3.2 单模态情感分析

由于SIMS中独立的单模态标注，我们进行了两组单模态情感分析的实验。在第一组实验中，我们使用真实的单模态标签来验证模型进行单模态情感分析的能力。在第二组实验中，我们使用多模态标签代替单模态标签，来验证在只有单模态信息的情况下，预测说话人真实情绪的能力。

结果如表4所示。首先，在同样的单模态任务中，单模态标签下的结果优于多模态标签下的结果。但前者不能反映说话者的实际情感状态。其次，在多模态标注下，仅使用单模态信息的表现低于使用多模态信息的表2。因此，由于单模态信息的固有局限性，仅使用单模态信息进行情感分析是不够的。

表4：（%）使用MLF-DNN对CH-SIMS数据集进行单模态情感分析的结果。"Label "一栏表示我们在这个任务中使用了哪种标注

在这里插入图片描述

5.3.3 表示差异

我们提出CH-SIMS的另一个动机是，我们认为独立的单模态标注的单模态表征差异会更大。我们使用t-SNE（Maaten和Hinton，2008）来可视化原始模型（LF-DNN、TFN和LMF）和新模型（MLF-DN、MTFN和MLMF）学习的模态内表征，如图4所示。比较明显的是，新模型学习到的单模态表征与原始模型相比更有特色。因此，单模态标注可以帮助模型获得更多的差异化信息，提高模态间的互补性。
在这里插入图片描述

图4：单模态表示的可视化。在每个子图中，红色、绿色和蓝色的点分别代表文本、音频和视频中的单模态表示。第一行显示的是仅有多模态任务的模型的学习表示。第二行显示了来自多任务模型的学习表征。同一列中的两个子图相互对比

6. 消融研究

在本节中，我们比较了结合不同单模态任务对多模态情感分析的影响差异。我们旨在进一步探讨不同单模态任务对多模态情感分析的影响。此外，我们还揭示了多任务学习与多模态情感分析之间的关系。

我们进行了多个组合实验来分析不同的单模子任务对主多模任务的影响。在这部分，我们只报告MLF-DNN中的结果。结果如表5所示。结果表明，在三个单模子任务部分缺失的情况下，多模态任务的性能并没有明显的提高，甚至有所损伤。在多模态学习中，有两个因素可能会造成不良影响，包括不同单模态表征之间的一致性和不同任务中学习的不同步性。前者意味着统一注释引导的表征是相似的，在不同模态中缺乏互补性。后者意味着不同任务中的学习过程是不一致的。以任务 "M，A "为例，子任务 "A "的子网络是由多模态损失和单模态损失监督的，而子任务 "T "和子任务 "V "则是由其单模态损失监督的。而子任务 "T "和子任务 "V "则只受其单模态损失的监督。这意味着 "A "被学习了两次，而 "T "和 "V "在一个训练周期内只被学习一次。因此，单模态任务的引入会降低表征的一致性，加强互补性，但也会造成不同步。随着更多单模态任务的引入，前者的正效应逐渐增加，后者的负效应逐渐减少。最后，当所有单模任务都加入时，后者的负效应几乎不存在了。最后，模型在 "M、T、A、V "任务下的表现达到一个峰值。

表5：使用MLF-DNN进行不同任务的多模态情感分析结果（%）。"M "是主要任务，"T、A、V "是辅助任务。仅报告任务 "M "的结果。

在这里插入图片描述