Predicting Emotions in User-Generated Video

阿凡凡提

已于 2022-04-23 12:46:21 修改

阅读量333

点赞数 1

分类专栏：多模态文章标签：自然语言处理

于 2022-04-15 13:35:18 首次发布

原文链接：https://ojs.aaai.org/index.php/AAAI/article/view/8724

版权

多模态专栏收录该内容

8 篇文章 1 订阅

订阅专栏

预测在用户生成的视频中的情绪

摘要

1、近年来，用户生成的视频集合正在迅速扩大，对这些集合的自动分析系统的需求也很高。

2、虽然大量的研究致力于识别像“生日派对”和“滑雪”等语义，但几乎没有人试图理解视频中的情绪，例如“快乐”和“悲伤”。

3、在本文中，我们提出了一个全面的计算框架，用于预测用户生成视频中的情绪。

4、我们首先介绍了一个从流行视频分享网站收集的经过严格设计的数据集，该数据集带有手动注释，可以作为未来研究的有价值的基准。从该数据集中提取了大量特征，从流行的低级视觉描述符、音频特征到高级语义属性。

一组综合实验的结果表明，组合多种类型的特征（如音频和视频特征的联合使用）是重要的，而属性特征（如包含情感层面语义的特征）是非常有效的。

研究内容

我们提出了一种完全基于视频内容分析的情绪预测综合计算方法。

以往对视频情绪的研究大多是基于电影数据(WangandCheong2006)。据我们所知，目前还没有针对用户生成的视频研究这一问题的工作，这些视频内容更加多样化，质量控制和后期编辑很少。

在用户生成的视频中，限制情感分析所需进展的一个重要问题是缺少定义良好、带有手动注释的数据集。为了促进对这个有趣且重要的问题的研究，我们首先基于从YouTube和Flickr下载的视频构建并公开发布了一个基准数据集1（参见图1中的几个示例帧）。然后从该数据集中提取大量特征，不仅包括在电影视频分析工作中广泛使用的音频和视频（视听）描述符，还包括在每个维度都具有语义意义的新属性特征。

使用最先进的预测模型，我们对每个单独特征及其组合的影响进行了综合分析，得出了一些有趣的观察结果。

提出的方法&模型架构

本节介绍一个用于情绪预测的综合计算系统。

图2显示了我们系统的情绪预测框架。

与许多其他视频内容识别问题类似，该系统最重要的组成部分是特征表示，它根据一定的可计算规则将原始视频转换为固定维的特征向量。为此，我们考虑了三组特征，涵盖了广泛的流行的视觉和音频描述符，以及一些新开发的语义属性表示。

音频和视频特征

Dense SIFT（Scale Invariant Feature Transform，缩放不变特征变换）是许多图像和视频内容识别任务中一种强大的视觉特征。

HOG（Histogram of Gradients，梯度直方图）描述符最初被提出用于图像中的人类检测（Dalal and Triggs 2005），自那时以来，它作为一种局部特征在许多视觉识别应用中被广泛采用。与基于密集SIFT的表示法一样，HOG描述符是在密集采样的帧块上计算的，然后以与SIFT描述符相同的方式将其转换为每个视频的词袋表示。

SSIM（Self-Similarities：自相似性）也是一种局部视觉描述符（Shechtman和Irani，2007）。与基于梯度的描述符（如SIFT）不同，SSIM是通过在帧块周围较大的圆形窗口中量化密集采样帧块的相关图来获得的。每个视频中的SSIM描述符也被量化为一个词袋表示。

GIST是一种全局特征，主要捕获视频帧的纹理特征。所有采样帧的平均GIST特征用于表示视频。

LBP（Local Binary Patterns：局部二进制模式）是另一种流行的纹理特征，捕捉不同的视觉效果。所有帧的平均表示用作视频特征。

MFCC：除了视觉特征之外，音频线索也是实现我们这项工作目标的重要补充。考虑的第一个音频特征是mel频率倒谱系数（MFCC），这可能是该领域最著名的音频表示。

Audio-Six：我们还包括另一个紧凑的音频特征，由六个基本音频描述符组成。

属性特征

与低级视听特征不同，属性特征包含丰富的语义，这些语义可能非常有用，因为情绪通常发生在某些（语义可解释的）环境下。因此，我们建议使用属性进行情感预测，并采用三种涵盖各种语义的属性描述符。

Classemes（集群）（Torresani、Szummer和Fitzgibbon 2010）是一个属性描述符，由在网络图像上训练的模型生成。

ObjectBank（Li et al.2010）是另一个最初提出的用于图像分类的高级属性描述符。

SentiBank:我们还考虑了一种新的基于情感相关概念的属性表示（Borth等人，2013）。SentiBank中有1200个概念，每个概念都被定义为一个形容词-名词对，例如，“吓人的狗”和“孤独的路”，其中形容词与情绪密切相关，名词对应于被期望自动检测到的对象和场景。

文章贡献

两个重要贡献：

•为了在用户生成的视频中建立情绪分析的良好基准，我们构建了一个包含八种手动注释情绪的数据集。我们在这个数据集上分析和识别潜在的有助于情绪识别的线索，这对于设计一个好的计算模型很重要。

•我们计算和评估了大量的视听特征，并引入了语义属性用于情绪预测。从广泛的评估中获得了一些有价值的见解，这为今后对这一具有挑战性问题的研究奠定了基础。

前提知识

属性特征

我们手动查看视频，看看是否有与每个情绪类别高度相关的可计算线索。虽然问题被发现非常复杂，但正如预期的那样，我们感觉音频和视频信息都很重要。此外，我们还观察到，一些情绪与特定语义（如特定事件或对象的存在）有着高度的相关性。例如，“快乐”的情绪可能经常与聚会和孩子玩耍等活动同时发生。这一观察促使我们提出将语义属性用于视频情感分析。图1给出了数据集中的几个视频帧示例。

数据集

我们根据从网上下载的视频构建了一个数据集。

有八种情绪类别，包括“愤怒”、“期盼”、“厌恶”、“恐惧”、“喜悦”、“悲伤”、“惊讶”和“信任”（“anger”, “anticipation”, “disgust”, “fear”, “joy”, “sadness”, “surprise”, and “trust”）。

这八个类别中的每一个都被扩展到三个子类，例如“不安”、“害怕”和“恐怖”（“apprehension”, “fear” and “terror”），用于更广泛的“fear”类别。

我们在每次搜索中下载了最多的视频，从YouTube上下载了4486个视频，从Flickr上下载了3215个视频。这些视频由10名注释者（5名男性和5名女性）手动过滤。

最终的数据集包含1101个视频，每个类别至少有100个视频，平均持续时间为107秒。表1总结了更多细节。

结果

图3：使用基于个体特征及其融合的模型，对四种情绪类别子集的进行预测准确度。

（a）视觉特征 (1. Dense SIFT; 2. HOG; 3. SSIM; 4. GIST; 5. LBP)。

（b）音频特征 (1. MFCC; 2. Audio-Six)。

（c）属性特征(1. Classemes; 2. ObjectBank; 3. SentiBank)。

在融合实验中，并没有报告所有的特征组合。如果添加特征不能改善结果，则会立即删除该特征

在视觉、音频和属性特征集中，最佳特征组合分别为“124”、“12”和“13”。

图4：八种情绪类别的整个数据集的预测准确率，按照图3标题中给出的相同策略呈现。

视觉、音频和属性特征集中的最佳特征组合分别为“1234”、“12”和“123”。

Visual features

视觉特征：图3（a）总结了五种视觉特征的结果，图4（a）总结了整个数据集。总体而言，结果相当不错，子集的准确率约为50%，整个数据集的准确率近40%。在这五个特征中，dense SIFT和HOG始终是表现最好的，其次是SSIM。基于局部像素梯度计算SIFT和HOG特征。虽然很难解释为什么梯度可以用来更好地推断情绪，但它们都是识别图像/视频语义的最先进特征，并且经常被证明比GIST和LBP等特征更有效。

Audio features

音频特征：图3（b）和图4（b）显示音频特征的结果。MFCC和Audio Six在情感预测方面都有区别，证实了音频包含有用信息的事实。然而，它们的性能低于所有视觉特征，这表明视觉通道更重要。这些音频特征的总体结果不是很有竞争力，因为对于一些音频线索较弱的情绪（例如，“悲伤”），音频特征的预测精度非常低。稍后我们将讨论每个类别的性能。此外，我们观察到这两个音频特征是非常互补的。与两个单独特征中的较高者相比，通过对子集和整个集合的融合，性能提高了9%以上。

Attribute features

属性特征：接下来我们讨论属性特征的结果，据我们所知，这些特征从未用于视频情感分析。如图3（c）和图4（c）所示，属性特征表现出非常强的性能，与视觉特征类似，甚至更高（在四类子集上）。这证实了我们的猜测，即语义层面的线索对预测情绪是有效的。需要注意的是，用于生成属性特征的模型都是使用Web图像进行离线训练的，这些图像与用户生成的视频在数据域上存在显著差异。因此，如果能够通过直接在视频上训练的模型来检测属性，属性特征的性能可以得到很大的提高。