论文翻译（4）-Context-Dependent Sentiment Analysis in User-Generated Videos

最新推荐文章于 2022-02-18 11:41:43 发布

此生辽阔

最新推荐文章于 2022-02-18 11:41:43 发布

阅读量3.4k

点赞数 2

分类专栏：论文学习多模态

本文链接：https://blog.csdn.net/ningmengshuxiawo/article/details/109132669

版权

论文学习同时被 2 个专栏收录

17 篇文章 6 订阅

订阅专栏

多模态

5 篇文章 4 订阅

订阅专栏

Context-Dependent Sentiment Analysis in User-Generated Videos
用户生成视频中的上下文相关情感分析
论文及代码地址：https://github.com/soujanyaporia/multimodal-sentiment-analysis
链接：https://pan.baidu.com/s/1SalF1JSWYvzSSc2A_zHZRA
提取码：v72o
Context-Dependent Sentiment Analysis in User-Generated Videos 多模态个性分析阅读笔记

摘要

多模态情感分析是一个正在发展的研究领域，它涉及视频中情感的识别。目前的研究认为话语是独立的实体，即忽略了视频中话语之间的相互依赖和联系。在这篇文章中，我们提出了一个基于LSTM的模型，使得话语能够在同一个视频中从其周围环境中捕获上下文信息，从而帮助分类过程。我们的方法比现有技术的性能提高了5-10%，并且对通用性具有很高的鲁棒性。

一、引言

情感分析是一个“手提箱”研究问题，需要解决许多NLP子任务，例如，方面提取(茯苓等人，2016a)、命名实体识别(马等人，2016)、概念提取(Rajagopal等人，2013)、讽刺检测(茯苓等人，2016b)、人格识别(Majumder等人，2017)等。

情感分析可以在不同的粒度级别上执行，例如，主观性检测简单地将数据分类为主观的(固执己见的)或客观的(中立的)，而极性检测侧重于确定主观数据指示积极还是消极的情感。情绪识别进一步将推断出的极性分解成由主观数据传达的一组情绪，例如，积极情绪可以由喜悦或预期引起，而消极情绪可以由恐惧或厌恶引起。

尽管本文的主要重点是对视频中的情感进行分类，但我们也展示了所提出的方法对于精细训练的情感识别任务的性能。
情感识别和情感分析已经成为社交媒体的新趋势，帮助用户和公司自动提取用户生成的内容，尤其是视频中表达的意见。由于电脑和智能手机的高可用性，以及社交媒体的快速崛起，消费者倾向于记录他们对产品或电影的评论和意见，并将其上传到社交媒体平台，如YouTube和Facebook。这种视频通常包含比较，这可以帮助潜在的买家做出明智的决定。

analyzing videos over text 的主要优势是声音和视觉形式中存在的行为线索的过剩。视觉数据中的声音调制和面部表情，以及文本数据，为更好地识别意见持有人的情感状态提供了重要线索。因此，文本和视频数据的结合有助于创建一个更强大的情绪和情感分析模型。

An utterance 是由呼吸或停顿所限定的语言单位，话语级情感分析侧重于用情感标签来标记视频的每个话语(而不是给整个视频分配唯一的标签)。特别是，话语层面的情感分析有助于理解说话者在整个讲话过程中所涉及的话题的不同方面的情感动态。

最近，提出了多模态情感分析的许多方法，产生了有趣的结果(佩雷斯-罗萨斯等人，2013；Wollmer等人，2013年；茯苓等人，2015年)。然而，仍有一些重大问题没有解决。不考虑话语之间的关系和依存性就是这样一个问题。该领域的最新方法独立处理话语，忽略视频中话语的顺序(Cambria等人，2017b)。

视频中的每个话语都是在不同的时间以特定的顺序说出来的。因此，视频可以被视为一系列话语。像任何其他序列分类问题一样(Collobert等人，2011)，视频的连续话语可能在很大程度上是上下文相关的，因此影响彼此的情感分布。在我们的论文中，我们重视话语在视频中出现的顺序。

我们将周围的话语视为要分类的话语的语境。例如，MOSI数据集(扎德等人，2016年)包含一个视频，其中一个女孩评论电影《青蜂侠》。有一次，她说“青蜂侠做了类似的事情”。通常，做类似的事情，即单调或重复的，可能会被认为是消极的。然而，附近的话语“它更吸引观众”、“他们对它有了新的看法”、“我只是喜欢它”表明了一个积极的背景。

the independence of tokens的假设在信息检索和数据挖掘中非常流行，例如，单词包模型，但是它有很多限制(Cambria和White，2014)。在本文中，我们抛弃了这种过于简单化的假设，建立了一个基于长短期记忆(LSTM)的框架，该框架将一系列话语作为输入，并提取语境话语层面的特征。

文献中发现的其他主要问题是说话者相关模型与说话者无关模型的作用、数据集内每个模态的影响以及多模态情感分类器的泛化能力。这些问题得不到解决，给不同多模态情感分析方法的有效比较带来了困难。在这项工作中，我们解决了所有这些问题。

我们的模型保留了话语的顺序，并使连续的话语能够共享信息，从而将上下文信息提供给话语级别的情感分类过程。实验结果表明，该框架在三个基准数据集上的性能优于现有技术5-10%。

论文结构如下:第二部分简要回顾了多模态情感分析的相关文献；第3节详细描述了建议的方法；实验结果和讨论见第4节；最后，第五部分对论文进行了总结。

二、相关工作（Related Work）

捕捉人们意见的机会引起了科学界对新研究挑战的越来越大的兴趣，也引起了商界的越来越大的兴趣，因为金融市场预测可以带来显著的好处。

基于文本的情感分析系统可以大致分为基于知识的方法和基于统计的方法，虽然知识库的使用最初更流行于识别文本中的极性，情绪分析研究人员最近一直在使用基于统计的方法，特别关注监督统计方法

1974年，埃克曼(Ekman，1974)对面部表情进行了广泛的研究，表明通用面部表情能够提供足够的线索来检测情绪。最近对基于语音的情感分析的研究(Datcu和Rothkrantz，2008)侧重于识别相关的声学特征，如基频(音高)、话语强度、带宽和持续时间。

对于融合听觉和视觉模式的情感识别，两个早期的作品是(德席尔瓦等人，1997年)和(陈等人，1998年)。这两个工作表明，双峰系统比任何单峰系统产生更高的精度。最近关于用于情感识别的视听融合的研究已经在特征层面(Kessous等人，2010)或决策层面(Schuller，2011)进行。虽然有许多关于用于情感识别的视听融合的研究论文，但是只有少数论文致力于使用文本线索以及视觉和听觉模态的多模态情感或情感分析。(Wollmer等人，2013年)和(Rozgic等人，2012年)融合了来自音频、视频和文本模式的信息，以提取情感和情绪。

茯苓等(茯苓等，2015，2016d，2017b)利用卷积神经网络(CNN)提取音频、视频和文本特征；连接这些特征并使用多核学习(MKL)进行最终情感分类。(Metallinou等人，2008)和(Eyben等人，2010a)融合了用于情感识别的音频和文本模式。这两种方法都依赖于特征级融合。(吴和梁，2011)在决策层融合音频和文本线索。

三、方法

在这项工作中，我们提出了一个LSTM网络，该网络将视频中的话语序列作为输入，并通过建模输入话语之间的相关性来提取上下文单模和多模特征。m个视频，包括其组成话语，作为输入。我们将数据集表示为U = u1，u2，u3…，.Li是Ui中的话语数量。下面，我们分两个主要步骤对所提出的方法进行概述。
在这里插入图片描述
A.上下文无关的单模话语级特征提取
首先，提取单模特征而不考虑话语的上下文信息(第3.1节)。
B.语境单模和多模分类
其次，独立于上下文的单模特征(来自步骤A)被馈送到LSTM网络(称为上下文LSTM)，该网络允许视频中的连续话语在特征提取过程中共享信息(第3.2节)。
实验表明，与传统框架相比，该框架提高了话语级情感分类的性能。

3.1提取上下文无关的单模特征
最初，从每个话语中分别提取单模特征，即我们不考虑话语之间的上下文关系和依赖性。下面，我们解释文本、音频和视觉特征提取方法。

3.1.1 text-CNN:文本特征提取
语篇情态的来源是口语词的转录。为了从文本模态中提取特征，我们使用了CNN (Karpathy等人，2014)。具体来说，我们首先将每个话语表示为组成单词的向量的串联。这些向量是来自谷歌新闻(Mikolov等人，2013)的在1000亿个单词上训练的公开可用的300维单词2vec向量。

卷积核因此被应用于这些连接的单词向量，而不是单个单词。每个话语都被包装在一个50个单词的窗口中，作为CNN的输入。CNN有两个卷积层；第一层有大小为3和4的两个卷积核，每个卷积核有50个特征图，第二层有大小为2的卷积核，有100个特征图。

卷积层与窗口2 × 2的最大池化层交错。接下来是一个大小为500的全连接层和softmax输出。我们使用修正线性单位(ReLU) (Teh和Hinton，2001)作为激活函数。全连接层的激活值作为文本模态的话语特征。CNN在话语上的卷积学习具有隐含语义信息的短语的抽象表示，其每一个连续层跨越越来越多的单词并最终跨越整个话语。

3.1.2 openSMILE ：音频特征提取
音频特征以30赫兹的帧速率和100毫秒的滑动窗口提取，为了计算这些特征，我们使用了OpenSliew(Eyben等人，2010b)，这是一个开源软件，可以自动提取音频特征，如音高和声音强度。执行语音标准化，并对语音强度进行阈值化，以识别有和没有语音的样本。z标准化用于执行语音标准化。

openSMILE提取的特征由几个低级描述符(LLD)组成，如MFCC、声强、音高及其统计量，如均值、根二次均值等。具体来说，我们使用了openSMILE的13-ComParE 配置文件。考虑到每个LLD的所有功能，我们获得了6373个特征。

3.1.3 3D-CNN:视觉特征提取
我们使用3D-CNN(季等人，2013)从视频中获得视觉特征。我们假设3D-CNN不仅能够从每个帧中学习相关特征，还能学习给定数量的连续帧之间的变化。

在过去，3D-CNN已经成功地应用于基于三维数据的对象分类(季等，2013)。它实现最先进结果的能力激励我们在我们的框架中采用它。

设vid ∈ R c×f×h×w 是一个视频，其中c 是图像中的通道数(在我们的例子中c = 3，因为我们只考虑RGB图像)，f =帧数，h =帧高，w =帧宽。同样，我们考虑3D卷积滤波器 filt ∈ R fm×c×fd×fh×fw，其中fm=特征图数，c =通道数，fd=帧数(换句话说，滤波器深度)，fh=滤波器高度，fw=滤波器宽度。与2D-CNN类似，filt滑过视频视频并产生输出 convout∈Rf m×c×(f -fd+1)×(h -fh+1)×(w- fw+1)。
接下来，我们将最大池应用于convout，以仅选择相关特征。该池化将仅应用于数组convout的最后三个维度。

在我们的实验中，我们用32个特征图(fm)获得了最好的结果，滤波器大小为5 × 5 × 5(或fd× fh× fw)。换句话说，滤波器的尺寸为32 × 3 × 5 × 5 × 5(或fm× c × fd× fh× fw)。随后，我们对卷积运算的输出应用最大池化，窗口大小为3 × 3 × 3。接下来是300号和softmax的密集层。这个密集层的激活值最终被用作每个话语的视频特征。

3.2上下文相关的特征提取

在序列分类中，每个成员的分类依赖于其他成员。视频中的话语保持一个顺序。我们假设，在一个视频中，就他们的情感线索而言，有很大概率的话语间依赖性。特别是，我们声称，当对一句话语进行分类时，其他话语可以提供重要的语境信息。这就需要一个模型来考虑这种相互依赖性以及它们对目标话语的影响。为了捕捉这种跨话语的信息触发流，我们使用了基于LSTM的递归神经网络(RNN)方案(gers，2001)。
3.2.1长期短期记忆
LSTM(Hochriter and Schmidhuber，1997)是RNN的一种，传统前馈神经网络的扩展。具体来说，LSTM细胞能够模拟长程相关性（ modeling long-range dependencies），这是其他传统神经网络在梯度消失问题上无法做到的。每个LSTM单元由一个输入门I、一个输出门o和一个遗忘门f组成，用于控制信息流。

目前的研究(周等人，2016年)表明，使用这种网络将上下文信息纳入分类过程是有益的。在我们的例子中，LSTM网络通过模拟话语之间的关系来服务于上下文相关的特征提取的目的。我们称我们的建筑为“背景LSTM”。我们在本文的后面提出了它的几个架构变体。在我们的例子中，LSTM网络通过建模话语之间的关系来服务于上下文相关的特征提取的目的。我们称我们的结构为‘contextual LSTM’。我们在本文的后面提出了它的几个架构变体。
3.2.2LSTM上下文结构（Contextual LSTM Architecture）
假设单模特征具有维数k，因此每个话语由特征向量Xi ,t表示，t∈ Rk，其中t表示视频i的第t条语句。对于一个视频，我们收集其中所有话语的向量，得到Xi= [xi，1，Xi，2，…，xi,Li] ∈ R Li×k，其中Li表示视频中的话语数.这个矩阵xi作为LSTM的输入。图1展示了这个LSTM模块的功能。
在这里插入图片描述在该过程中，算法1的getLstmFeatures(Xi)使用第32行到第37行中提到的等式，将这些话语Xi的每一个通过LSTM单元。然后，LSTM单元hi,t的输出被馈送到密集层，并最终被馈送到软softmax 层(线38至39).密集层Zi,t的激活，被用作语境LSTM的语境依赖特征。

3.2.3训练

LSTM网络的训练是在每个视频的每个话语的softmax上使用分类交叉熵来执行的，即
在这里插入图片描述
其中M =视频总数，Li = 第i个video的句子总数，yj i，c = c类的原始输出，yj i，c = 第i个video的第j个句子的预测输出。

作为一种正则化方法，在LSTM单元和密集层之间引入了Dropout的来避免过拟合。由于视频不具有相同数量的话语，因此引入填充作为中性话语（padding is introduced to serve as neutral utterances）。为了避免网络中噪声的扩散，对这些填充的话语进行位屏蔽，以消除它们在网络中的影响。通过将训练集分成80/20%分割的训练和验证部分，对训练集进行超参数调整。

RMSprop已被用作优化器，以解决Adagrad的学习率急剧下降而闻名(Duchi等人，2011年)。RMSprop已被用作优化器，以解决Adagrad的学习率急剧下降而闻名(Duchi等人，2011年)。在将训练集输入网络后，测试集通过网络生成它们的上下文相关特征。这些特征最终通过SVM进行最终分类。

不同的网络架构
在我们的实验中，我们考虑了以下LSTM结构的变体。

sc-LSTM这种上下文LSTM结构的变体由单向的LSTM单元组成。由于这是上下文LSTM的简单变体，我们将其称为简单上下文LSTM (sc-LSTM)。http://github.com/senticnet/sc-lstm

h-LSTM我们还研究了一种结构，其中省略了LSTM单元之后的密集层。因此，LSTM单元hi，t的输出提供了我们的上下文相关特性，而softmax层提供了分类。我们称这种结构为隐藏的——LSTM(h-LSTM)。
bc-LSTM双向lstm是两个单向lstm堆叠在一起，方向相反。因此，话语可以从视频中发生在其之前和之后的话语中获得信息。我们用一个双向的LSTM取代了常规的LSTM，并将最终的架构命名为双向的上下文相关的LSTM(bc-LSTM)。该结构的培训过程类似于sc-LSTM。
uni-SVM在这种情况下，我们首先获得第3.1节中解释的单模特征，将它们连接起来，然后输入到SVM进行最终分类。应该注意的是，使用门控循环单元(GRU)而不是LSTM并没有提高性能。

3.3模态融合
我们通过两个不同的框架实现多模态融合，如下所述。
3.3.1非分层框架
在这个框架中，我们连接上下文无关的单模特征(来自第3.1节)，并将其输入上下文相关的LSTM网络，即sc-LSTM、bc-LSTM和h-LSTM。
3.3.2分层框架
上下文单模特征可以进一步提高第3.3.1节中解释的多模态融合框架的性能。为此，我们提出了一个由两个层次组成的分层深层网络。
Level-1独立于上下文的单模特征(来自第3.1节)被馈送到提出的LSTM网络，以获得每个话语的上下文敏感的单模特征表示。每种模态都使用单独的LSTM网络。
Level-2这一级包括一个类似于第一级的LSTM网络，但在训练和计算方面是独立的。第一级中每个LSTM网络的输出被连接并馈入这个LSTM网络，从而提供了一个固有的融合方案(见图2)。
在这里插入图片描述第二级的性能取决于上一级的特征质量，更好的特征有助于融合过程。算法1描述了话语分类的整体计算。对于分层框架，我们连续但分开地训练第一级和第二级，即训练不是“端到端”进行的。

四、实验

4.1数据集详细信息
多模态情感分析的大部分研究是在训练和测试集分割中说话人重叠的数据集上进行的。然而，因为每个人都有独特的表达情感和情绪的方式，所以找到用于情绪分析的通用的、独立于个人的特征是非常重要的。

在现实世界的应用中，该模型应该对个人特质具有鲁棒性，但是很难从有限数量的个人的行为中得出一个通用的模型。为此，我们执行独立于个人的实验来研究我们的模型的一般化，即我们的数据集的训练/测试分割相对于说话者是完全不相交的。

多模态情感分析数据集
MOSI MOSI数据集(扎德等人，2016)是一个富含情感表达的数据集，其中93人用英语回顾主题，由5个注释者用得分在+3(强阳性)到-3(强阴性)之间的每个片段情感标签来分割。我们将这五个注释的平均值作为情感极性，因此只考虑两个类别(正面和负面)。训练/验证集由数据集中的前62个人组成。测试集包含其余31位演讲者的固执己见的视频。特别是，训练和测试中分别使用了1447个和752个话语。
MOUD 该数据集(佩雷斯-罗萨斯等人，2013年)包含由55人提供的产品审查视频。评论是西班牙语的(我们用谷歌翻译API2来获得英语成绩单)。话语被标记为积极的、消极的或中性的。然而，我们去掉了中性标签，以保持与以前工作的一致性。在数据集中的79个视频中，59个视频被认为是训练集/val集。

多模态情感识别数据集
IEMOCAP EMOCAP (Busso等人，2008)包含10个说话者在分成话语的双向对话中的行为。所有视频中对话的媒介都是英语。该数据库包含以下分类标签:愤怒、快乐、悲伤、中性、兴奋、沮丧、恐惧、惊讶和其他，但我们只取前四个，以便与现有技术进行比较(Rozgic等人，2012年)。训练集中考虑前8位演讲者的视频。表2提供了训练/测试分割的详细信息，其中提供了关于所有数据集的训练/测试分割的信息。表2还提供了跨数据集分割的详细信息，其中数据集MOSI和MOUD分别用于训练和测试。所提出的模型被用于来自不同语言的评论，允许我们分析它的健壮性和可推广性。
在这里插入图片描述 4.1.1数据集的特征
为了评估我们提出的方法的鲁棒性，我们在不同种类的多个数据集上使用它。MOSI和MOUD都用于情感分类任务，但它们由分别用不同语言(即英语和西班牙语)说的评论视频组成。

IEMOCAP数据集不同于MOSI和MOUD，因为它是用情感标签标注的。除此之外，IEMOCAP数据集是使用不同于MOSI和MOUD的方法创建的。这两个数据集是通过从流行的社交网站上抓取消费者自发的在线产品评论视频，然后用情感标签进行标记而开发的。相反，为了精选IEMOCAP数据集，向受试者提供情感相关的脚本并要求他们采取行动。(To curate the IEMOCAP dataset, instead, subjects were pro-vided affect-related scripts and asked to act.)正如茯苓等人(茯苓等人，2017a)所指出的，像IEMOCAP这样的动作数据集可能遭受有偏的标记和不正确的动作，这可能进一步导致在动作数据集上训练的模型的不良泛化能力。

应当注意的是，数据集的单独配置和分割在所有实验中都是相同的(即，上下文无关的单模特征提取、基于LSTM的上下文相关的单模和多模特征提取和分类)。

4.2不同模型的性能
在本节中，我们介绍了不同LSTM网络变体的单模和多模情感分析性能，如3.2.3节所述，并与现有技术进行了比较
分层与非分层融合框架
不出所料，经过训练的上下文单峰特征有助于分层融合框架比非分层框架表现更好。表3通过使用bc-LSTM网络比较分层和非分层框架来说明这一点。
在这里插入图片描述出于这个原因，我们剩下的分析只利用分层框架。非分层模型优于基线的统一SVM模型，这证实了上下文敏感的学习范式在提高基线性能方面起着关键作用。
不同网络变体的比较
值得注意的是，sc-LSTM和bc-LSTM在多模态情感识别和情感分析数据集上都表现得相当好。由于bc-LSTM能够获得话语序列的前后信息，它在sc-LSTM上的所有数据集上的表现始终更好。从表3所示的实验结果可以明显看出密集层在提高性能方面的用途。在MOSI和MOUD数据集上，性能改进在0.3%到1.5%的范围内。在IEMOCAP数据集上，bc-LSTM和sc-LSTM相对于h-LSTM的性能提升在1%到5%的范围内。

与基线的比较
在所有数据集上，每个LSTM网络变体的表现都优于基线uni-SVM，相差2%至5%(见表3)。这些结果证明了我们最初的假设，即建模话语之间的上下文相关性(uniSVM不能做到)可以提高分类性能。在IEMOCAP数据集上的更高性能改进表明了对话语之间的长期依赖性建模的必要性，因为连续情感识别是一个多类序列问题，其中一个人不经常改变情感(llmer等人，2008)。我们已经实施并比较了(茯苓等人，2015年)当前提出的最先进的方法。在他们的方法中，他们从每个模态中提取特征，并将这些特征输入MKL分类器。然而，他们没有以独立于说话者的方式进行实验，也没有考虑话语之间的语境关系。在表3中，粗体显示的结果与统一SVM相比具有统计学意义(p < 0.05)。表4中的实验结果表明，所提出的方法优于(茯苓等人，2015年)一个显著的差距。对于情感识别任务，我们将我们的方法与当前的技术水平进行了比较(Rozgic等人，2012)，他们以类似的方式提取特征(茯苓等人，2015)(尽管他们使用SVM树(Y uan等人，2006)进行融合)。
在这里插入图片描述 4.3模式的重要性
不出所料，在各种实验中，双模和三模模型的表现都优于单模模型。总体而言，在所有数据集上，音频模式的表现都优于视觉模式。在MOSI和IEMOCAP数据集上，文本分类器获得了优于其他单模分类器的最佳性能。在IEMOCAP数据集上，单模和多模分类器对中性话语的分类性能较差。文本模式与非文本模式相结合，大大提高了IEMOCAP的性能。然而，在其他数据集中，差值较小。

在MOUD数据集上，由于将西班牙语翻译成英语时引入的噪声，文本模态的表现不如音频模态。在文本-CNN中使用西班牙语单词vectors3in可以提高10%。尽管如此，我们报告使用这些翻译的话语的结果，而不是在西班牙语单词向量上训练的话语，以便与(茯苓等人，2015)进行公平的比较。
4.4模型的泛化
为了测试模型的泛化能力，我们在完整的MOSI数据集上训练了我们的框架，并在MOUD数据集上进行了测试(表5)。音频和文本模态的性能较差，因为MOUD数据集是西班牙语的，而模型是在英语的MOSI数据集上训练的。然而，值得注意的是，在这个实验中，视觉模态比其他两种模态表现得更好，这意味着在跨语言的场景中，面部表情比音频和文本模态携带更普遍、更鲁棒的信息。我们无法进行类似的情感识别实验，因为在我们进行实验时，除了IEMOCAP之外，没有其他话语级别的数据集可用。

4.5 定性分析
考虑上下文相关性的需要(见第1节)对于话语级别的情感分类是最重要的。例如，在话语“电影的更好的名字是什么”中，说话者试图通过给出适当的名字来评论电影的质量。然而，情感是含蓄地表达的，需要了解说话者的情绪和他/她对电影的总体看法。基线的单一模态向量和现有技术未能正确地对这种话语进行分类
在这里插入图片描述然而，来自相邻话语的信息，例如，“我真的很喜欢它”和“他们在爱尔兰旅行时展示的乡村美得惊人”，表明了它的积极语境，并帮助我们的语境模型正确地对目标话语进行分类。这种上下文关系在整个数据集中很普遍。

为了更好地理解每个模态在整体分类中的作用，我们还做了一些定性分析。例如，话语“谁没有任何存在或伟大”被音频分类器分类为积极的(因为“存在和伟大”被热情地说出)。然而，语篇情态抓住了“不”所诱导的否定，并对其进行了正确的分类。同样的情况也发生在“惊人的特殊效果”这个话语上，它在说话者的声音和脸上都没有表现出热情的玩笑（jest），但是被文本分类器正确地分类了。

另一方面，文本分类器将“喜欢看到漫画人物被负责任地对待”的话语分类为积极的(因为“喜欢看到”和“负责任地”的存在)，但是人的声音和皱眉的脸中的高度愤怒有助于将这识别为消极的话语。在某些情况下，由于人脸遮挡或音频噪声，该方法的预测是错误的。此外，在情感非常弱和不相关的情况下，所提出的方法显示出对其周围话语的一些偏见，这进一步导致错误的预测。

五、结论

在文献中，视频中话语之间的语境关系大多被忽略。在本文中，我们开发了一个基于LSTM的网络，从视频的话语中提取上下文特征，用于多模态情感分析。所提出的方法已经超过了现有技术的水平，并且显示出比基线显著的性能改进。
作为未来的工作，我们计划开发一个基于语义的注意力模型，以确定每个话语的重要性及其对情感分类的每种模态的具体贡献。

生词短语

gated recurrent unit (GRU)门控循环单元(GRU)
utterance表达；说话；说话方式
generalizability.普遍性；概括性
granularity levels粒度级别
subjectivity detection主观性检测
which can aid prospective buy-ers make an informed decision.这有助于潜在买家做出明智的决定
affective states情感状态
remain un-addressed.仍未解决
information retrieval and data mining信息检索和数据挖掘
generalization ability概括能力，泛化能力
contextual infor-mation上下文信息
The paper is organized as follows论文组织如下
a brief literature review on multimodalsentiment analysis简要回顾了多模态情感分析的相关文献
broadly categorized大致分为
feed-forward [自]前馈（控制）；正反馈
Specifically特别地；明确地
unidirectional单向的；单向性的
Context-independent 独立于上下文的

此生辽阔

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
论文翻译（4）-Context-Dependent Sentiment Analysis in User-Generated Videos

Context-Dependent Sentiment Analysis in User-Generated Videos用户生成视频中的上下文相关情感分析论文及代码地址：https://github.com/soujanyaporia/multimodal-sentiment-analysis链接：https://pan.baidu.com/s/1SalF1JSWYvzSSc2A_zHZRA提取码：v72o摘要多模态情感分析是一个正在发展的研究领域，它涉及视频中情感的识别。目前的研究认为话语是
复制链接

扫一扫