翻译：Face-Sensitive Image-to-Emotional-Text Cross-modal Translation for Multimodal Aspect-based Sentim

凤歌霞岚

已于 2023-05-08 15:06:14 修改

阅读量468

点赞数

文章标签：人工智能计算机视觉深度学习自然语言处理

于 2023-05-08 15:05:14 首次发布

本文链接：https://blog.csdn.net/qq_43732303/article/details/130558580

版权

文章提出了一种面部敏感的图像到情感文本翻译方法，用于多模态情感分析，特别是针对图像中的面部表情进行情感线索的提取和文本化。这种方法通过面部识别和属性分析生成面部描述，然后使用CLIP模型进行细粒度对齐和重写，最后通过门控多模态融合模块进行特征融合和去噪。实验表明，该方法在Twitter-2015和Twitter-2017数据集上取得了最先进的性能，证明了其在捕捉和利用视觉情感线索方面的优势。

摘要由CSDN通过智能技术生成

翻译：Face-Sensitive Image-to-Emotional-Text Cross-modal Translation for Multimodal Aspect-based Sentiment Analysis

原文：点击此处下载论文
代码： FLTE

摘要

向方面的多模态情感分析，旨在从多模态数据中识别目标方面的情感，近年来在多媒体和自然语言处理领域引起了广泛的关注。尽管最近的成功，基于文本方面的情感分析，现有的模型主要集中在利用对象级的语义信息的图像，但忽略了明确使用视觉情感线索，特别是面部情绪。如何提取视觉情感线索并将其与文本内容对齐仍然是解决该问题的关键挑战。在这项工作中，我们介绍了一个面部敏感的图像到情感文本翻译（FITE）的方法，其重点是通过面部表情捕捉视觉情感线索，并选择性地匹配和融合与目标方面的文本模态。据我们所知，我们是第一个明确利用情感信息的图像在多模态方面为基础的情感分析任务。实验结果表明，我们的方法在Twitter-2015和Twitter-2017数据集上取得了最先进的结果。这一改进表明了我们的模型在捕获具有面部表情的多模态数据中的方面级情感方面的优越性。

1 介绍

作为多模态情感分析的一项重要任务，基于多模态方面的情感分析（MABSA）旨在将句子-图像对中表达的情感极性分类为特定方面。与文本方面级情感分析相比，挖掘和利用视觉内容方面的情感线索是核心问题。
早期作品（Xu et al.，2019; Yu和Jiang，2019;Wang等人，2021）将由单峰预训练模型提取的视觉特征视为等同于文本特征。这些工作的重点是利用注意机制，隐含地对齐和融合的语义信息和情感信息的两个通道。最近，Yu et al.（2019）在基于特征的多模态融合阶段考虑了对象级视觉语义信息。如图1（a）和（B）所示，我们观察到图像中的面部表情对于识别目标方面“antonellaRoccuzzo”和“Kate Middleton”的情感是重要的。但由于数据集的限制和MABSA任务中跨模态对齐的监督不力，隐式捕获图像中情感信息的方法更容易学习非情感线索偏差。
Khan和Fu（2021）引入了一种对象感知转换器，将图像转换为字幕，以进行跨模态融合。跨模态转换有效地解决了来自不同特征空间的多模态特征融合问题。如图1所示，引入的图像字幕表示视觉内容的语义信息。但我们可以观察到，几乎所有的图像字幕的情感极性是中性的，这表明该方法忽略了几乎所有的视觉内容的情感线索。现有研究（Fan等人，2018 b）已经表明图像中的面部区域是强烈的情感指示器。研究发现：（1）当人类观察者观看视觉内容时，情感对象比中性对象更能吸引人类的注意力;（2）与人类相关的对象的情感优先效应比与人类无关的对象更强。据统计，Twitter数据中有超过50%的图像包含面部表情。因此，我们认为，人类的面部表情不能被忽视的MABSA任务，并提出明确使用面部信息作为视觉情感线索，将视觉情感信号转换为文本的跨模态融合。
此外，与具有单个面部的图像相比，图像中反映的情感与面部表情高度一致。对于具有多个人脸的图像，特别是具有不同表情的人脸，将目标方面与相关的人脸表情进行匹配是重要的。例如，在图1（B）中，面部3的表情不同于面部1和面部2。

受面部情绪识别研究成功的启发（Dalal和Triggs，2005;Li等人，2017）在计算机视觉领域，我们提出了一种简单但有效的面部敏感图像到情感文本跨模态翻译方法，该方法通过生成的面部表情描述来文本化图像中包含的情感。我们的方法不需要在情感图像字幕生成模型中进行额外的训练。此外，在方面敏感的对准和修改阶段中，在考虑场景信息与面部表情之间的关系的同时，我们采用一个预训练的视觉语言模型CLIP（拉德福等人，2021）以选择性地检索图像中与目标方面最相关的面部情感线索。有效地解决了多人脸场景下目标方位与图像表情描述的匹配问题。在最后阶段，我们应用门机制融合和去噪的多模态功能。
在我们广泛的实验中，我们表明（a）我们的方法在Twitter-2015和Twitter-2017数据集上实现了最先进的性能。在Twitter人脸数据集上的性能表明，该模型能够对多模态数据中细粒度方面的情感极性进行分类。Twitter-face数据集由包含Twitter 2015和Twitter-2017数据集中的面部表情的数据组成。（b）通过一系列的消融实验，我们证明了我们的FITE模型可以有效地捕捉图像中的情感线索，并将视觉情感线索与文本目标体对齐。同时，（c）案例研究证明，我们的方法也有显着的影响方面，是不直接与人类有关。

2 相关的工作

基于方面的情感分析的早期工作仅关注文本（Wang等人，2016; Xue and Li，2018;Hu等人，2019; Zhu等人，2019年; Li等人，2020年）。而对于多模态数据，目标变成识别多模态纹理图像对中的方面。2019年，Xu et al.（2019）提出了基于方面的多模态情感分析任务，并提出了一种基于BiLSTM的新型多交互记忆网络（MIMN）模型。Yu和Jiang（2019）提出了一种基于BERT的多模态架构TomBERT，用于面向目标的多模态情感分类任务（TMSC）。Yu et al.（2019）提出了一种实体敏感的注意力和融合网络，用于多模态基于目标的情感分类。Ju等人（2021）提出了一种多模态联合学习方法，该方法具有辅助跨模态关系检测，用于多模态方面级情感分析。然而，与其他多模态任务，如图像和文本检索相比，在MABSA任务中使用的情感注释缺乏强有力的监督信号的跨模态对齐。这个问题使得大多数现有的MABSA模型难以学习跨模态交互，并导致模型学习图像带来的偏差。
为了对齐来自不同语义空间的多模态特征并学习具有视觉细粒度对象信息的跨模态表示，Khan和Fu（2021）提出了一种利用视觉模态的新方法，其模型中的图像字幕生成模块承担了跨模态对齐的任务。它们基于跨模态翻译的思想将图像转换为文本描述。他们在MABSA任务上的成功得益于图像标题生成模型和文本内容预训练语言模型的强大上下文建模能力。然而，据统计，近98%的图像字幕在他们的工作是中性的情感极性，这表明他们的跨模态翻译模块忽略了几乎所有的情感线索，从视觉内容。最近，Ling et al.（2022）提出了一种针对特定任务的视觉语言预训练框架（VLP-MABSA），该框架使用三种类型的特定任务预训练任务。

3 方法

3.1 任务制定

MABSA的任务可以表述如下：给定一组多模态样本S = {X1，X2，…，X|S|}，其中|S|是样本数。并且对于每个样本，我们给出图像V ∈ R^{3×H×W}，其中3、H和W表示图像的通道数、高度和宽度，以及N个词的文本内容T =（w1，w2，…，wN），其包含M个词的子序列作为目标方面A =（w1，w2，…，wM）。我们的目标是学习一个情感分类器来预测每个样本X =（V，T，A）的情感标签y ∈ {Positive，Negative，Neutral}。

3.2 overview

如图2所示，所提出的模型由三个模块组成：面部敏感的图像到情感文本翻译模块、方面敏感的对齐和修改模块以及基于门的多模态融合模块。对于给定的多模态推文X =（V，T，A），我们将视觉输入V带入面部敏感的图像到情感文本翻译模块中以生成面部描述D = {D1，D2，…DI}其中I是在视觉输入V中的面部数量，并且Di =（w1，w2，…wK）表示K个词的句子。该模块主要研究图像中包含丰富情感线索的面部表情的提取和文本化。随后，由于视觉输入V可能包含多个面部表情，因此需要将目标方面A与相关面部描述 $D_A$ 匹配。在方面敏感的对齐和修改模块中，我们计算与方面A拼接的每个面部描述与图像输入V之间的余弦相似度。然后，我们根据这些相似性得分选择和重写人脸描述 $D_A$ 。此外，考虑到图像场景可以补充额外的语义信息，我们采用CapBERT中使用的字幕变换器（Khan和Fu，2021）来生成场景C =（w1，w2，…wJ），其中J表示图像字幕的长度。最后，在基于门的多模态融合模块中，我们利用两个预先训练的语言模型对场景的人脸描述和图像字幕进行建模，然后采用门机制进行特征融合和去噪。门控单元的输出通过用于方面情感预测的线性层。在下面的小节中，我们将详细介绍每个模块。

3.3 人脸敏感图像到情感文本的翻译

该模块旨在解决MABSA中的两个固有挑战。一个挑战是，由于图像在多模态推特中没有任何类别的限制，在复杂的图像很难提取对象级的情感线索。另一个是如果从图像中提取情感线索，如何在低资源环境下将情感图像内容转换为文本模态。
为了解决第一个挑战，如上所述，利用图像中丰富的面部表情是提取视觉情感线索的直接有效的方法。我们首先应用面部识别工具（Serengil和Ozpinar，2020）来识别所有面部F = {F1，F2，…FI}，其中I是面的数量，并且Fi ∈ R3×HF×WF表示具有3个通道、HF高度和WF宽度的面区域。然后，我们将这些人脸作为四个预先训练的基于人脸的分类器（Serengil和Ozpinar，2021）的输入，这些分类器可以提供面部属性分析，包括年龄，性别，面部表情（包括愤怒，恐惧，中性，悲伤，厌恶，快乐和惊讶）和种族（包括亚洲人，黑人，白色，中东人，印度人和拉丁美洲人）预测。
对于第二个挑战，我们希望将图像中的面部表情转换为文本内容，而无需额外训练新的情感图像标题模型。因此，在面部属性分析之后，我们根据预测置信度对所获得的面部属性进行过滤。我们过滤掉置信度低于阈值θ = 0.4的面部属性。为了生成流畅的自然语言情感人脸描述，我们手动设计了一个由人脸属性组成的人脸描述生成模式。生成面部描述的示例在表1中示出。

3.4方面敏感的对齐和修改

考虑图1（B）中的多面部示例，图像中的面部表情是不同的，并且孩子们愤怒的面部表情对于预测方面“Kate Middleton”的情感极性没有帮助。然而，不相关的面部表情引入噪声并降低性能。因此，有必要将图像中的面部表情与目标方面精确地对准。该模块主要关注于面部表情与目标方面的细粒度对齐，并重写相应的面部描述。
鉴于MABSA任务不包含直接的图像-文本对齐监督，并且用于MABSA任务的数据集的大小限制了模型通过对比学习来学习细粒度对齐，因此有必要引入外部图像-文本对齐知识。为此，我们应用CLIP模型来执行这种细粒度的对齐。我们使用在大规模图像-文本对数据集上预训练的CLIP模型的文本编码器和图像编码器来分别编码与方面A和图像V连接的人脸描述D。人脸描述和图像的特征嵌入：
$\begin{matrix}H_{D\&A}=Text\_Encoder(contat(D,A))&(1)\\ H_V=Image\_Encoder(V)&(2)\end{matrix}$
之后，我们将输出特征嵌入投影到相同的特征空间中。通过L2归一化，我们计算了这些特征嵌入的余弦相似度L。之后，我们选择并重写与当前图像相似度最高的人脸描述作为当前方面的文本化视觉情感线索。重写的面部描述仅保留来自预测的面部属性的目标方面和表情。
$\begin{array}{c c}{{H_{D\kappa A}^{'}=L2\_N o r m a l i z e(H_{D\kappa A}\cdot W_{D\kappa A})}}&{{(3)}}\\ {{H_{V}^{'}=L2\_N o r m a l i z e(H_{V}\cdot W_{V})}}&{{(4)}}\\ {{L=(H_{V}^{'}\cdot(H_{D\kappa A})^{T})*e^{t}}}&{{(5)}}\end{array}$
其中 $W_{D\kappa A}$ 和WV是可学习的权重，t是CLIP模型中的温度缩放。更多细节见附录。
此外，考虑到视觉场景信息对多模态语义的影响，我们遵循CapBERT的基于变换的图像字幕模型来生成图像的中性整体描述。
$C=Caption\_Transformer(V)\quad(6)$
最后，我们获得对齐的人脸描述和场景的图像标题，并将它们作为输入馈送到下一个模块。

3.5 基于门的多模态融合模块

在该模块中，我们的目标是将文本输入和目标方面与文本模态特征空间中的场景的生成的面部描述 $D_{all}$ 和图像标题C融合。为了利用预训练语言模型的强大文本上下文建模能力，我们将面部描述和感觉的图像标题与文本T和目标方面A连接起来，以分别形成两个新句子：
$\begin{array}{c} {[C L S] w_{1}^{T}, \ldots, w_{N}^{T}[S E P] w_{1}^{A}, \ldots, w_{M}^{A}[S E P] w_{1}^{D_{a l l}}, \ldots, w_{K}^{D_{a l l}}[S E P]} \quad (7)\\ {[C L S] w_{1}^{T}, \ldots, w_{N}^{T}[S E P] w_{1}^{A}, \ldots, w_{M}^{A}[S E P] w_{1}^{C}, \ldots, w_{J}^{C}[S E P]} \quad (8)\end{array}$
然后，我们将新句子馈送到两个预训练的语言模型中，并微调语言模型以获得[CLS]令牌 $H_{D}^{[CL S]}\in\mathbb{R}^{768}$ 和 $H_{C}^{[CL S]}\in\mathbb{R}^{768}$ 的池输出。给定生成方法的性能，所生成的场景的面部描述和图像字幕包含不可忽略的噪声。为了减轻噪声，我们利用门机制对特征表示 $H_{D}^{[CL S]}\in\mathbb{R}^{768}$ 和 $H_{C}^{[CL S]}\in\mathbb{R}^{768}$ 进行降噪。融合的特征表示通过线性分类层以获得情感预测结果。
$\begin{matrix}g_t=\sigma(W_DH_D^{[CLS]}+W_CH_C^{[CLS]}+b_g)&(9)\\ H=g_tH_D^{[CLS]}+(1-g_t)H_C^{[CLS]}&(10)\\ p(y|H)=softmax(WH+b)&(11)\end{matrix}$
其中WD ∈ R768×768，WC ∈ R768×768，W ∈ R768×3，bg ∈ R768和b ∈ R3是可学习参数，σ是非线性变换函数tanh。
我们使用标准的交叉熵损失来优化该模块中的所有参数。
$\mathcal{L}=-\frac{1}{|D|}\sum_{l=0}^{|D|}\log p(y^{(l)}|H^{(l)})\quad(12)$

4 实验

4.1实验设置

我们训练了我们的模型，并在Twitter-2015和Twitter-2017数据集上测量了它的性能。这两个数据集由多模式推文组成，这些推文在文本内容中注释了所提到的方面以及每个方面的情感极性。每个多模态推文由包含目标方面的图像和文本组成。由于我们的方法更侧重于包含人脸的例子，我们提取包含人脸的例子在上述两个数据集，形成Twitterface数据集，并验证我们的模型在这个数据集上的优越性。三个数据集的详细统计见表2和表3。此外，我们将模型学习率设置为5e-5，预训练模型注意力头为12，dropout率为0.1，批量大小为16，微调epoch为8，最大文本长度为256。我们报告所有模型的5次独立训练运行的平均结果。所有模型都基于PyTorch和两个NVIDIA TeslaV 100 GPU实现。

4.2比较基线

在本节中，我们与以下模型进行了比较，并在表4中报告了准确度和Macro-F1评分。

我们在仅图像设置中比较该方法：直接使用来自ResNet的输入图像的视觉特征的Res-Target模型（He等人，2016年）的报告。以及纯文本模型：（1）LSTM。(2)MGAM，一种多粒度注意力网络（Fan et al.2018 a），多层次融合目标和文本。(3)BERT，代表性的预训练语言模型（Devlin等人，2019），具有强大的文本表示能力，可以学习两个任意输入之间的对齐。此外，多模式比较基线包括：（1）MIMN，多交互式存储器网络（Xu等人，2019）学习跨模态和自我模态的互动影响。(2)ESAFN，一种实体敏感的注意力和融合网络（Yu等人，2019年）的报告。(3)VilBERT，预训练的VisionLanguage模型（Lu et al.2019），目标方面被连接到输入文本。(4)TomBERT（Yu和Jiang，2019）对视觉和文本表示之间的模态间交互进行建模，并采用目标图像（TI）匹配层来获得目标敏感的视觉。(5)CapBERT，一种基于BERT的方法（Khan和Fu，2021），将图像转换为字幕，并通过辅助语句将字幕与输入文本方面对融合。(6)CapBERT-DE，其将BERT替换为BERTweet（Nguyen et al.2020年）在CapBERT。(7)VLP-MABSA（Ling等人，2022），这是一个任务特定的预训练视觉语言模型MABSA。

4.3 实验结果和分析

我们将我们的方法与Twitter-2015和Twitter-2017数据集上的上述基线进行了比较，其中FITE-DE是用BERTweet-base替换BERT的模型，而FITE-DE-Large则是用BERTweet-Large。实验结果示于表4中。每个指标的最佳分数以粗体标记。
我们的方法在这两个数据集相比，所有的图像，纯文本和多模态基线表现更好。这证明了所提出的人脸敏感图像-情感-文本翻译方法的有效性。FITE-DE和FITE-DE-Large方法显示了对典型方法和多模态基线的改进。这证明了所提出的人脸敏感图像-情感-文本翻译方法的有效性。FITE-DE和FITE-DE-Large方法显示出对典型方法的改进，并且在Twitter-2015数据集上的macro-f1得分上分别优于SOTA方法CapBERT-DE约0.4%和0.9%，在Twitter-2017数据集上分别为1.8%和2.8%。与VLP-MABSA模型相比，我们的方法也表现出了竞争性的性能。FITE-DE-Large模型的性能优于FITE-DE模型和基于BERT的FITE模型，表明我们的模型在更强的语言模型下表现更好，这说明语言模型的上下文建模能力在融合阶段有很大的影响。与基线模型相比，FITE-DE模型在Twitter-2017数据集上的改进比Twitter-2015数据集上的改进更显著。我们推测这是因为Twitter-2017数据集包含更多的面部情感数据，包含面部的图像比例比Twitter-2015数据集高出15%。虽然这种现象在基础版本的模型比较中并不明显，但我们推测这是由于基础版本预训练语言模型的文本上下文建模能力较弱。
如表5所示，在Twitter人脸数据集上，纯文本BERT模型表现不佳。与基线模型CapBERT相比，我们的模型实现了显著的改进。这证明了我们的模型具有对图像中的面部表情进行建模的能力，并且还证明了在视觉内容中明确建模情感线索的重要性。

4.4 消融研究

为了进一步研究我们方法的各个组成部分的影响，我们使用基于BERT的版本FITE在Twitter-2015和Twitter-2017数据集上进行了全面的消融分析。结果示于表6中。首先，在没有门机制的情况下，我们将语言模型的池输出连接起来作为线性分类层的输入，以预测目标方面的情感标签。由于图像到情感文本生成阶段的噪声，性能下降了很多。在Twitter-2015数据集中，准确度和宏观f1得分下降了约1%，在Twitter-2017数据集中，准确度下降了1.97%，宏观f1得分下降了1.58%。这验证了门机制有助于降低噪声并提取更好的特征。其次，我们可以发现，删除细粒度的对齐模块会导致约1%的下降。这一观察表明，相位与视觉情感线索的对齐是至关重要的。第三，我们还探讨了去除场景的图像字幕的影响，该模型的性能显着下降。这验证了图文翻译有助于促进图文融合。

面部描述

我们研究了不同的面部描述产生的模式和不同的面部属性对我们的FITE模型的贡献的影响。表7描绘了不同面部描述的结果。我们测试2个设置的面部描述生成的模式。首先，我们只使用在多人脸情况下具有最高情感预测置信度的人脸来生成人脸描述。接下来，我们删除手动模式，直接使用所有预测的面部属性作为面部描述。正如我们所看到的，单面设置会使性能下降约2.5%，下一个设置会下降近1.5%。对于面部属性，我们删除四个属性之一，并生成面部描述来测试的影响。我们发现，没有脸的情绪导致最显着的下降超过2.1%，并删除任何属性导致性能下降。因此，必须小心地处理面部描述生成图案的设计。

视觉特征

为了验证我们的脸敏感的图像到情感文本跨模态翻译方法的强度相比，特征级融合策略，我们还研究了我们的模型的图像和人脸的视觉特征的性能。Res-BERT+BL模型和FITE+图像特征模型融合了ResNet的图像特征和语言模型的文本特征。而Res-BERT_face+BL模型和FITE+人脸特征只使用图像中的人脸区域。我们可以从表8中推断，与纯文本BERT模型相比，添加视觉特征带来了改进，这表明添加视觉输入可以带来额外的有效特征。具体来说，我们的方法优于模型的视觉功能。我们认为，这是因为我们已经明确地使用了视觉情感线索的图像到情感文本的翻译。这导致在添加缺乏跨模态对准的视觉特征之后噪声影响超过信息增益。

4.5 案例研究

图3显示了BERT、CapBERT和我们的模型对四个样本的预测结果之间的比较。由于我们的模型和CapBERT都具有很好的可解释性，我们还在四个样本中显示了生成的文本图像标题和面部描述。首先，在样本（a）中，我们可以看到，在包括积极情绪词happy的面部描述的帮助下，我们的方法可以正确地预测积极情绪极性，而具有中性文本和图像标题的其他模型做出错误的预测。同样，在样本（B）中，存在具有不一致面部表情的多个方面和多个面部。对于这样的示例，方面及其匹配的情感面部描述的细粒度对齐是特别重要的。通过我们的方法中的细粒度对齐和修改模块，生成的表情描述可以直接将正确的方面“antonellaRoccuzzo”对齐到快乐的面部情绪，并且有助于方面情感分类。此外，在样本（c）中，要判断的方面“FBI”是非人类对象（属于机构的名称），但是我们的方法仍然可以从具有人脸的图像输入中识别出有用的情感线索。类似地，在样本（d）中，受益于门机制的帮助，我们的模型也能够过滤掉非当前匹配方面的情感影响。这四个样本进一步证实了我们的动机在一张脸和多张脸的情况下通常是有用的。我们提出的方法可以捕获图像中的情感线索和跨模态对齐的情感线索与目标方面。

4.6 嵌入空间的可视化

我们提供了嵌入空间中情感分布的可视化，其中图4中的（a）子图说明了BERT学习的嵌入空间，而（b）子图由CapBERT学习，（c）子图由我们的方法学习。我们选择去除最终分类层的隐藏层向量，并使用T-SNE算法将768维向量转换为二维和三维特征点。从对比图中我们可以发现，与Bert和CapBERT模型相比，我们的方法可以使不同类别的聚类更加清晰，并且使同一情感聚类中的点更加接近。相比之下，很明显，通过我们的方法学习的嵌入空间可以有效地区分积极，中性和消极的情绪。

5 总结

在本文中，我们提出了基于多模态方面的情感分析的人脸敏感的图像-情感-文本翻译方法，首先引入图像中的面部情绪作为视觉情感线索。我们确定的挑战，多模态方面为基础的情感分析与弱监督细粒度teximage对齐，并提出了一种直接有效的方法来对齐文本模态目标方面和视觉内容中的面部情绪。我们的方法在Twitter 2015和Twitter-2017数据集上实现了最先进的性能。我们还建立了一个新的Twitter脸方面的情感数据集来评估我们的模型。结果表明，我们的方法优于一系列的基准模型，并证明了我们的方法在捕捉视觉情感线索和跨模态对齐多模态情感数据的优越性。

限制

主要的限制是，我们的方法是不适合的样本没有面部情绪的视觉模态。其中一个主要原因是，它是困难的，缺乏可解释性，以确定视觉情感线索的图像没有面孔。由于开放域中的Twitter图像包罗万象，因此图像中出现的视觉对象的情感影响受到许多因素的影响。即使对于人类来说，由于其认知水平的不同，对同一视觉对象的情感感知也会有很大的偏差。这导致情感分析领域缺乏对图像情感的明确定义，也没有其他与Twitter图像情感分析相关的数据集。我们的方法可以利用面部表情，这是一个相对明显和强烈的视觉情感信号，具有良好的情感一致性。今后将从美学、常识知识等角度进行进一步研究。另一个限制是所生成的面部描述是基于人工模板的。我们也尝试使用生成模型来融合文本上下文和表情信息，但受限于生成模型的性能和缺乏公开的情感图文数据集。

A 附录

A.1面部描述重写

方面敏感的对齐和修改模块仅用于具有多个面部表情的情况。对于只有一张脸和一个方面的情况，我们直接使用方面来修改在人脸敏感的图像到情感-文本翻译模块中生成的人脸描述，并添加一句“图像中有1个人”并将新的人脸描述作为输入到基于门的多模态融合模块。对于具有多个面的情况，例如，图2中的情况，对于方面“antonellaRoccuzzo”，我们将方面与面描述连接：“antonellaRoccuzzo，一个28岁的印度女人，表情很开心”和“antonellaRoccuzzo，一个38岁的白色男人，表情很中性”。我们将连接的新句子作为CLIP文本编码器的文本输入，将图像作为CLIP图像编码器的视觉输入，并计算视觉特征与两个文本特征的余弦相似度。之后，我们可以选择得分较高的第一个人脸描述并修改人脸描述。通过实验和案例分析，我们发现CLIP具有根据图像区分方位和人脸描述的能力，在这种情况下，我们可以得到第一个人脸描述的得分为0.615，第二个人脸描述的得分为0.385。因此，我们可以获得细粒度的对齐方面和面孔（面部描述）的情况下，多个面孔。
由于我们为每个图像生成固定的面部描述，因此数据集中的同一图像-文本对对应于不同的方面。例如，图2中的情况和图3中的第四示例在文本输入中包含多个方面，每个方面可以与其对应的面部描述相匹配。如果多个方面指向同一张脸，则该方面将分别与脸描述相连接，并且作为CLIP模型的输入，具有最高得分的方面将被选择用于重写。
方面敏感的对齐和修改模块仅用于具有多个面部表情的情况。对于只有一张脸和一个方面的情况，我们直接使用方面来修改在人脸敏感的图像到情感-文本翻译模块中生成的人脸描述，并添加一句“图像中有1个人”并将新的人脸描述作为输入到基于门的多模态融合模块。我们生成了一个句子“图像中有0个人。”作为没有面部的情况的面部描述。对于那些只有场景，标志或建筑物的图像，我们试图手动注释它们，我们发现即使是人类也很难识别它们的情感极性。因此，我们只选择补充图像中没有人出现的语义信息，避免引入错误的情感噪声。

A.2 多面孔案例分析

根据统计，Twitter-2015数据集中有23.2%的图像具有一个面部，14.7%的图像具有多个面部，Twitter-2017数据集中有28.9%的图像具有一个面部，22.4%的图像具有多个面部。我们的基于FITE的模型实现了以下精度：66.97%和F1-评分：63.88%，在Twitterface数据集中的示例中，具有一张脸和准确度：73.21%，F1评分：71.86%有多张面孔。CapBERT模型实现了以下精度：65.13%，F1评分：62.82%的人在Twitterface数据集中使用一张脸和准确率：67.50%，F1评分：65.72%有多张面孔。实验结果表明了该方法在多人脸情况下的有效性。

A.3 错误分析

我们对我们的主要模型FITE进行了误差分析。图5显示了一些失败的示例，这些示例分为三种类型：（1）图像中没有有用的面部。(2)对面部特征的错误预测。(3)在特定的情境下，面部表情并不能反映完整的视觉情感。图5中的示例（a）示出了由于图像中没有有用的面部而导致的失败示例。由于没有检测到面部信息，图像中的情感线索（“克林顿的支持率下降”）被忽略。并且图5中的例子（c）错误地将特朗普的表情识别为“高兴”，从而误导了情绪的预测。上述两种类型的错误受到图像质量和面部表情识别工具的限制。特别是对于模糊图像，从模糊图像中提取正确的面部表情是困难的。图5中的示例（B）示出了特殊场景。文字描述的是老友重逢，但图像中的每个人都有一种庄严的表情。图像和文本中的情感极性是冲突的，以及一些讽刺的情况。在这种情况下，视觉情感受到文本的影响，面部表情不能反映完整的视觉情感线索。图像到文本转换过程中的信息丢失使得跨模态融合不完全。

凤歌霞岚

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
翻译：Face-Sensitive Image-to-Emotional-Text Cross-modal Translation for Multimodal Aspect-based Sentim

向方面的多模态情感分析，旨在从多模态数据中识别目标方面的情感，近年来在多媒体和自然语言处理领域引起了广泛的关注。尽管最近的成功，基于文本方面的情感分析，现有的模型主要集中在利用对象级的语义信息的图像，但忽略了明确使用视觉情感线索，特别是面部情绪。如何提取视觉情感线索并将其与文本内容对齐仍然是解决该问题的关键挑战。在这项工作中，我们介绍了一个面部敏感的图像到情感文本翻译（FITE）的方法，其重点是通过面部表情捕捉视觉情感线索，并选择性地匹配和融合与目标方面的文本模态。
复制链接

扫一扫