利用多模态信息进行事件摘要和概念级别的情感分析
文章目录
0. 摘要
在线用户生成内容(UGC)数量的快速增长需要社交媒体公司自动从照片和视频中提取知识结构(概念)以提供多样化的多媒体相关服务。然而,真实世界的照片和视频是复杂和嘈杂的,从多媒体内容中提取语义和情感是一项非常困难的任务,因为合适的概念可能会以不同的表示形式呈现。因此,为了更好地理解,最好从多个模态分析UGCs。为此,我们首先介绍 EventBuilder
系统,它处理语义理解,并通过利用不同的社会媒体(如Wikipedia和Flickr)实时自动生成给定事件的多媒体摘要。随后,我们提出 EventSensor
系统,该系统旨在解决情感理解问题,并为给定的情绪生成多媒体摘要。它从UGCs的可视化内容和文本元数据中提取概念和情绪标签,并利用它们支持一些重要的多媒体相关服务,如音乐多媒体摘要。此外,EventSensor
利用 EventBuilder
作为语义引擎组件,支持基于情感的事件摘要。实验结果表明,EventBuilder
和 EventSensor
均优于其基线,并有效地总结了YFCC100M数据集上的知识结构。
1. 介绍
近年来,由于智能手机,数码相机和一些网络设施的普及,UGCs(例如照片和视频)的数量急剧增加。 最近一个有趣的趋势是,诸如Flickr和YouTube之类的社交媒体公司不是自己制作内容,而是为用户创造生成多媒体内容的机会。 因此,随时随地捕获多媒体内容,然后立即在社交媒体平台上共享它们已成为流行。 由于UGCs 属于不同的有趣事件(例如节日,游戏和抗议活动),因此它们已成为人类日常生活中不可或缺的一部分。
举例来说,在非常受欢迎的照片共享网站Instagram上,到目前为止已上传了超过十亿张照片。此外,该站点每月有4亿活跃用户[1]。但是,由于以下原因,很难从多媒体内容中自动提取知识结构:
(i)难以捕获UGCs的语义和情感,
(ii)文本元数据中存在噪音,
(iii)处理大型数据集的挑战。
首先,针对语义理解和总结多媒体内容的知识结构,我们在较早的工作中提出了EventBuilder系统[2]。它使用户能够从大型多媒体集合中自动实时获取给定事件的多媒体摘要(见图1)。
该系统利用如Wikipedia和Flickr之类的社交媒体平台的信息来提供事件的有用摘要。由于此早期工作主要关注于实时演示,因此其性能评估受到限制。因此,在这项研究中,我们来自Flickr的1亿张照片和视频进行了EventBuilder
的拓展实验,并将结果与基线进行了比较。在基线系统中,我们选择在元数据中包含输入事件名称的照片(例如:说明,标题和标签)。实验结果证明,该算法有效地总结了知识结构,并优于基线。接下来,我们描述我们的方法如何解决上述问题。
技术的进步使移动设备能够结合UGCs收集大量的上下文信息(例如,空间,时间和其他敏感数据)。我们认为,UGCs的多模态分析对于语义和情感理解非常有帮助,因为多媒体内容通常是非结构化的,并且很难仅通过一种模态有意义地访问。由于多模态信息通过从非结构化的多媒体内容和上下文信息中推断出语义来增强知识库,因此我们在 EventBuilder
系统中利用了它,它具有以下三个新颖的特征:
(i)利用Wikipedia作为事件背景知识来获取有关输入事件的其他上下文信息。
(ii)通过各种社交媒体活动实时可视化一个有趣的事件;
(iii)通过解决优化问题,根据照片和Wikipedia文本的描述为事件生成文本摘要。
接下来,为了理解情感并从多媒体集合中生成基于情感的多媒体摘要,我们在本研究中引入 EventSensor 系统。此外,EventSensor
利用 EventBuilder
作为其语义引擎来生成基于情感的事件摘要。 EventSensor
利用来自 UGCs 的多模态信息进行情感分析。它从照片的视觉内容和文本元数据中提取概念,并利用它们来确定照片的情感细节。概念是一种知识结构,可提供有关情感的重要线索。例如,概念 “grow movement”示愤怒和斗争。文本概念(例如,grow movement, fight as community, and high court injunction)是由Poria等人[3]提供的语义解析器根据文本元数据(例如描述和标签)计算出来的。视觉概念是通过使用卷积网络从照片和视频的视觉内容中派生的标签,该网络指示诸如人,建筑物,食物和汽车之类的概念的存在。 YFCC100M数据集中所有照片的视觉概念均作为元数据提供。在此基础上,我们提出了一种新颖的算法,用于融合从文本和照片的视觉内容衍生的概念(请参见算法1)。
翻译的版本如下:
随后,我们利用现有的知识库(例如SenticNet-3,EmoSenticNet,EmoSenticSpace和WordNet)确定照片的详细情感信息。这些知识库可帮助我们构建一个能够提供基于情感服务的情感引擎。例如,在我们的系统中,情感引擎用于生成与情绪相关的配乐(请参见图2)。
与多媒体内容中的情感相匹配的基于情绪的声音是非常重要的方面,并且在观看视频时非常有助于提高视频的吸引力。因此,与没有有趣声音的普通幻灯片相比,具有匹配配乐的视频在社交媒体网站上的观看和共享更具吸引力。这激励人们通过向照片添加匹配的配乐来创建此类音乐视频,并在社交媒体上共享它们。但是,由于以下原因,在照片中添加配乐并不容易。
- 首先,一般来说,用户将自定义配乐添加到来自UGCs的大量照片中是繁琐,耗时且不易扩展的。
- 其次,很难自动提取照片表达的情感。
- 最后,重要的一点是,良好的音轨应该匹配并增强照片的整体氛围,并满足用户的喜好。
因此,这需要构建一个摘要系统,通过向照片添加匹配的配乐来提升多媒体摘要的体验。为此,我们介绍了 EventSensor
系统,该系统根据照片的已确定的情绪来生成音乐多媒体摘要(具有匹配音轨的照片幻灯片)。
图3显示了我们的情感引擎的框架。它更好地提供了多媒体内容的语义和情感分析。为了确定多媒体内容中的情绪信息,我们的系统利用了以下知识库中的知识结构。
- SenticNet-3是用于概念级别情感分析的公共可用资源[4]。它由30,000个常识和常识概念 C ‾ \overline C C 组成,例如食物,党派和 完成的目标。而且,它把每个概念关联到: C ‾ \overline C C 中其他五个语义相关的概念 和 如情感沙漏模型[5]中所述的包含愉悦,注意力,敏感性,天分和极性的情感学信息。
- EmoSenticNet将 C ‾ \overline C C 的13,000个概念映射到情感标签,例如愤怒,厌恶,喜悦,悲伤,惊讶和恐惧。为了有效地理解情感,必须了解其余的SenticNet-3概念的情感标签[6]。
- 因此,我们利用EmoSenticSpace,为 C ‾ \overline C C 中的每个概念提供100维的向量空间,以便基于邻居投票来确定丢失的情感信息(见图4)。我们使用余弦相似度度量为每个概念确定100个邻居。
- 此外,我们使用WordNet库来利用不同单词的语义细节。
此外,我们使用Poria等人提供的语义解析器对照片的文本元数据进行语义分析,以提取知识结构(文本概念),以便更好地理解[3](见图3)。该解析器根据子句之间的依赖关系将自然语言文本解构为概念。为了利用这种知识结构来确定照片的情感细节,我们提出了一种算法,用于在确定的(视觉和文本)概念与
C
‾
\overline C
C之间建立关联(见算法2)。所提出的情感引擎对于提供基于情感的多媒体相关服务中非常有用。
翻译版本如下:
文章剩余部分组织如下:第二部分是相关工作;第三部分描述了 EventBuilder
和EventSensor
两个系统;第四部分是效果评估;第五部分是文章总结。
2. 相关工作
我们的目的是自动从社交媒体生成多媒体内容的摘要。此过程的步骤可以描述如下:
(i)从所有照片和视频中识别事件和情感,
(ii)基于语义分析生成给定事件的摘要,
(iii)基于情感分析生成摘要。
在本节中,我们简要介绍事件检测和摘要,语义和情感分析以及多媒体内容的配乐推荐方面的最新进展。
在过去的几年中,在事件建模,检测和多媒体理解领域已经取得了重要的工作[7-9]。较早的方法[10-12]利用多模态信息(例如用户标签,空间和时间信息以及多媒体内容)来自动检测来自大量多媒体内容(例如Flickr)的事件。 Fabro等人[13]提出了一种算法,用于基于社区贡献的多媒体内容(使用Flickr的照片和YouTube的视频)汇总现实事件摘要。他们通过将生成的摘要与报告相应事件的Wikipedia文章进行比较,评估了所生成摘要的覆盖范围。由于维基百科被认为是全面的知识源之一,因此我们在事件摘要系统中也充分利用了它。 Long等[14]提出了一个统一的工作流,用于对Twitter等微型博客数据进行事件检测,跟踪和汇总。他们从微型博客数据中选择主题词,利用其特征进行事件检测。此外,Filatova和Hatzivassiloglou [15]提出了一系列基于事件的特征,这些特征基于tf-idf得分来产生事件摘要。在我们 EventBuilder
[2]的早期工作中,我们利用了这些基于事件的特征[15]来生成给定事件的文本摘要。在该研究中,我们对 EventBuilder
进行了评估,并根据 准确率,召回率,F值和余弦相似度等指标与基线系统进行了比较。 Naaman [16]提出了一种用于社交媒体应用程序以搜索和挖掘多媒体数据的方法。
接下来,我们回顾情感分析领域,该领域试图根据从视觉内容和元数据中展示的概念来确定多媒体内容的情感细节。 在过去的几年中,在情感分析领域做出了重要的贡献[17-20]。 情感在个性化搜索,检索和推荐系统中非常有用。 Cambria等人[4] 提出了SenticNet-3,它弥合了 词级自然语言数据与它们所传达的概念级观点和情感之间 在概念以及情感上的鸿沟。 他们还提出了AffectiveSpace-2 来确定概念的情感直觉[21]。 Poria等人[22] 提出了用于多模态情感数据分析的智能框架。 利用上述知识库,我们可以从多媒体内容中确定情感细节。
接下来,我们回顾多媒体内容的配乐推荐领域。 多媒体内容的配乐推荐领域在很大程度上尚未开发。 早期的方法[23,24]为照片的幻灯片添加配乐。 但是,他们主要关注低级视觉特征。 有几种方法[25-27]可以识别视频中的情感,但是视频的配乐推荐领域[28,29]尚待开发。 Rahmani等人[30] 根据背景信息(例如用户的喜好,电影评论,电影的演员和导演),提出了基于上下文的电影推荐技术。 由于我们的工作主要是确定多媒体内容的情感细节(情绪标签),因此我们从现有的带有情绪标签的音乐数据集中随机选择与确定的情绪标签相对应的音轨[31](有关详细信息,请参见第4节)。
3. 系统概述
3.1 EventBuilder
图1展示了 EventBuilder
系统的系统框架,该系统通过两个步骤为事件生成多媒体摘要:
(i)执行离线事件检测
(ii)生成在线事件摘要。
为了从照片
p
p
p 中检测事件
e
e
e,它通过组合来自不同模态的置信度得分来计算相关性得分,如下所示:
u
(
p
,
e
)
=
w
1
ξ
+
w
2
λ
+
w
3
γ
+
w
4
μ
+
w
5
ρ
u(p,e)= w_1ξ+ w_2λ+ w_3γ+ w_4μ+ w_5ρ
u(p,e)=w1ξ+w2λ+w3γ+w4μ+w5ρ,其中
w
i
,
(
1
≤
i
≤
5
)
w_i, (1≤i≤5)
wi,(1≤i≤5) 是不同模态的权重,使得
∑
i
=
1
5
w
i
=
1
\sum\limits_{i = 1}^5 {{w_i}} = 1
i=1∑5wi=1,并且
ξ
,
λ
,
γ
,
μ
和
ρ
ξ,λ,γ,μ和ρ
ξ,λ,γ,μ和ρ 是给定
p
p
p 和
e
e
e 关于事件名称,时间信息,空间信息,关键字和相机模型 的相似函数,如[2]中所述。在对事件检测的开发集进行初步实验之后,我们设置以下权重:
w
1
=
0.40
,
w
2
=
0.20
,
w
3
=
0.15
,
w
4
=
0.20
,
w
5
=
0.05
w_1 = 0.40,w_2 = 0.20,w_3 = 0.15,w_4 = 0.20,w_5 = 0.05
w1=0.40,w2=0.20,w3=0.15,w4=0.20,w5=0.05 。我们会根据启发式方法为相机模型分配总得分的5%,这种启发法是:好的相机会捕获质量更好的多媒体内容,从而更好地呈现事件。将所有相似性分数,阈值和其他分数归一化到区间 [0,1]。
选择具有高于预定义阈值
δ
δ
δ 的事件分数的代表性照片集
R
R
R,以在Google Maps上进行可视化。由于 EventBuilder
是离线而不是在搜索时从UGC检测事件,因此它既省时又可扩展到大型存储库。而且,它可以通过利用来自Wikipedia的信息重构事件的特征向量来很好地应对新事件,我们将其用作背景知识来获取有关事件摘要的更多上下文信息。事件摘要系统可以按固定的时间间隔为新上传的UGCs 调度事件检测算法,以更新事件数据集。在检测到事件之后, EventBuilder
从 R
生成事件 e
的文本摘要。
EventBuilder在在线处理过程中针对给定的事件和时间戳生成两个文本摘要:
(i)来自多媒体内容描述的Flickr摘要
(ii)该事件的维基百科文章中的维基百科摘要。
Flickr摘要被视为事件的文本摘要的基准,并在评估过程中与Wikipedia摘要进行了比较。为了实时产生事件摘要,考虑在给定时间戳之前上传的多媒体项目。EventBuilder
利用多媒体内容和事件的Wikipedia文本的元数据(例如,空间和时间信息、用户标记和描述)等多模态信息,在事件检测和摘要中使用特征枢轴方法。EventBuilder
通过以下两个步骤生成事件的文本摘要:
(i)重要概念的识别(即使用[15]进行提取重要的事件相关信息),并在事件摘要中进行描述;
(ii)文本摘要,它通过在所需摘要长度内从可用文本中选择最少数量的句子来覆盖最大数量的重要概念。因此,事件的文本摘要可以表述为最大覆盖问题。由于这个问题可以简化为众所周知的集覆盖(NP-hard)问题,我们只能通过近似来解决这个问题,因为NP-hard问题只能通过近似算法来解决[32]。
首先,EventBuilder
从文本元数据中提取重要的概念(例如,kid-play-holi,对于一个名为Holi的事件)。
接下来,它通过从文本元数据和提取的概念构成的矩阵中选择最少量的句子来覆盖最大数量的重要概念,以此解决优化问题,如我们先前的工作[2]中所述。我们引入一种贪婪算法,该算法将句子迭代地添加到事件摘要
S
S
S,直到达到所期望的长度
L
‾
\overline L
L 或涵盖所有概念为止。因此,最大数量的重要概念 包含在
S
S
S 中。句子和重要概念被映射到一个
∣
T
∣
×
∣
K
∣
|T| \times |K|
∣T∣×∣K∣ 矩阵。
∣
T
∣
|T|
∣T∣ 和
∣
K
∣
|K|
∣K∣ 是可用文本中句子和概念的数量。如果句子(行)中存在概念(列),则此矩阵的元素为1,否则为0。我们利用此矩阵模型来避免冗余,方法是在用户描述和Wikipedia文章中 全局选择涵盖当前最重要概念的句子。在我们的近似算法[2]中,我们根据所涵盖概念的总权重来限制摘要的总长度,以解决长摘要的开销。
3.2 EventSensor
图2描述了EventSensor系统的体系结构。它由两个部分组成:
(i)接受用户输入(例如心情标签,事件名称和时间戳)的客户端,
(ii)包含语义和情感引擎的后端服务器。 EventSensor
利用语义引擎(EventBuilder
)来获取给定事件和时间戳的代表性照片集
R
R
R 。随后,它使用其情感引擎来生成基于情绪的事件摘要。它将配乐附加到
R
R
R 中照片幻灯片中。配乐是根据情感引擎导出的照片的最常见的情绪标签对应的配乐所选择。此外,语义引擎有助于为给定的事件和时间戳生成文本摘要。如果用户选择了情绪标签作为输入,则 EventSensor
将从索引有情绪标签的数据库中检索
R
R
R。接下来,通过将匹配的配乐附加到
R
R
R 中的照片幻灯片,情感引擎为输入的情绪标签生成音乐多媒体摘要。
图3显示了 EventSensor
系统中的情感引擎的系统框架。情感引擎有助于从聚合在社交媒体上的多媒体内容向用户提供与多媒体相关的重要服务。它利用多模态信息来执行情感分析,这有助于提供与情绪相关的服务。具体来说,我们从 UGCs 的视觉内容和文本元数据中利用概念(知识结构)。我们为数据集的每个多媒体项目提取视觉概念,并使用语义解析器API [3]从多媒体内容的文本元数据中计算概念。接下来,我们将融合提取的视觉和文本概念,如算法1中所述。我们提出了一种新的融合算法,该算法基于不同元数据在确定一组60张照片的UGCs情感信息中的重要性。(请参阅第4.2节)。此外,我们将其用于计算不同元数据(如UGCs的描述,标签和标题)的情感信息的准确性(有关更多详细信息,请参见第4节)。在确定了多媒体内容的融合概念
C
C
C 之后,我们计算了相应的 SenticNet-3 概念,因为它们弥合了概念和情感上的鸿沟并包含了情感信息。
算法2描述了我们 在语义分析器提取的概念 C C C 和 SenticNet-3 C ‾ \overline C C 概念之间建立关联的方法。它检查 C C C 中的概念是否存在于 C ‾ \overline C C。对于 C C C 中的每个概念,如果SenticNet-3 中存在它,则将其添加到 C P C_P CP 中,否则将其拆分为单词集 W W W 并重复该过程。我们将 W W W集中存在于 C ‾ \overline C C 中的单词(概念)添加到 C P C_P CP 中,并对其余单词的 WordNet同义词集 重复该过程。对于照片 p p p 的 C P C_P CP 中的每个SenticNet-3 概念,算法3通过参考EmoSenticNet E E E 和 EmoSenticSpace E ‾ \overline E E 知识库确定相应的情绪标签[6]。 E E E 将13,000个SenticNet-3的概念映射到情绪标签,例如愤怒,厌恶,喜悦,悲伤,惊奇和恐惧。但是,没有给出 C ‾ \overline C C 中剩余的17,000个概念的情绪标签。为了确定他们的情感信息,首先我们使用 EmoSenticSpace 找到他们的邻居。 E ‾ \overline E E 为 C ‾ \overline C C 中的每个概念提供100维的特征向量空间。如图4所示,我们使用余弦相似性度量为每个概念找到100个具有情绪信息的邻居(即从 E E E 中获取),并基于投票计数确定其六维情绪向量。最后,我们利用算术平均值结合 C P C_P CP 中所有概念的情绪向量,得到 p p p 的情绪向量 M P M_P MP。实验结果表明,概念的不同情绪向量的算术平均值比其几何、调和平均值表现更好。
在为用户提供与多媒体相关的不同服务时,前面步骤中计算出的语义和情感信息非常有用。 例如,我们在Flickr之类的社交媒体上聚合的照片中提供多媒体摘要、 一旦知道了情感信息,就可以将其用于提供与情感相关的不同服务。 例如,我们可以查询Last.fm 来检索确定的情绪标签的歌曲,并使用户能够获得音乐多媒体摘要。 为了展示我们系统的有效性,我们通过在照片幻灯片中添加匹配的配乐来呈现音乐多媒体摘要。 由于从多媒体内容确定情感(情绪标签)是本文的主要贡献,因此我们从带有情绪标签的音乐数据集中随机选择与确定的情绪标签相对应的配乐(有关音乐数据集的更多详细信息,请参见第4节)
3.3 进行中的工作
此外,我们计划向 EventSensor
系统添加两个新功能:
(i)通过利用照片中的视觉概念在多媒体摘要中引入多样性
(ii)使用户能够获取任何事件和情绪的多媒体摘要。
相关性和多样性是好的多媒体摘要的两个主要特征。 EventBuilder
中代表性集合
R
R
R 的选择缺乏多样性,因为
R
R
R 仅基于相关性得分构建。因此,我们计划通过在预处理过程中对照片进行聚类来解决系统中的多样性标准。从照片内容中得出的概念形成类簇,并有助于产生各种多媒体摘要。例如,基于视觉概念的聚类有助于产生具有视觉上不同的照片(即来自不同聚类)的多媒体摘要。接下来,为了使用户能够获取任何输入的多媒体摘要,我们计划计算用户输入与已知事件,类簇 和 情绪标签之间的语义相似度。我们可以使用 Apache Lucene 和 WordNet 、用1756个视觉概念和已知事件来计算输入事件的语义相似度。
4. 评估
数据集
我们使用了 YFCC100M [33](Yahoo! Flickr Creative Commons 100M)数据集,该数据集包含来自Flickr的1亿个多媒体项(约9920万张照片和80万个视频)。选择该数据集的原因是其数量,形式和元数据。例如,数据集的每种媒体都包含几个元数据注释,例如用户标签,空间和时间信息等。这些媒体是从1990年代开始捕获的,并在2004年至2014年之间上传。其中包括来自巴黎,东京,伦敦,纽约,香港和旧金山等顶级城市的媒体。此外,所有媒体都标有自动添加的标签,这些标签是通过使用卷积神经网络得出的,该卷积神经网络表示各种概念的存在,例如人,动物,物体,食物,事件,建筑和风景。数据集中共有1756个视觉概念。对于音乐数据集,我们使用来自 ADVISOR 系统[31]的 包含 729 首歌曲的 ISMIR’04 数据集来生成音乐多媒体摘要,该摘要带有Last.fm.的20个最常见的情绪标签(例如,快乐,悲伤,梦想和有趣) 。根据早期工作中情绪标签的分类[5,31,34],我们将Last.fm的20种情绪标签归类为六个情绪类别(即 愤怒,厌恶,喜悦,悲伤,惊奇和恐惧),在这项研究中使用(见表1)。该音乐数据集包含所有主要音乐流派的歌曲,例如古典,电子,爵士,金属,流行,朋克,摇滚和世界。如ACM多媒体事件检测与摘要挑战大赛2015所述,为了检测7种事件(Holi, Eyjafjallajökull Eruption, Occupy Movement, Hanami, Olympic Games, Batkid, and Byron Bay Bluesfest),我们处理了 1亿张照片和视频。为了进行高效、快速的处理,我们计算所有照片的相关性得分,概念和情绪标签,并在预处理过程中为其建立 Apache Lucene 索引。在 EventSensor
的实时原型系统中,我们使用113259张照片,它们与上述七个事件的相关性得分很高。
4.1 EventBuilder
事件检测
为了评估提出的自动事件检测系统,我们对来自于 基线 和 EventBuilder
得出的结果进行了拓展的用户研究。为了一致性检查,我们增加了冗余并保持问题的随机顺序。此外,我们添加了一些检查以拒绝不良反应,方法是添加一些很容易回答的问题。我们拒绝了不符合上述条件的答复。我们为“数据集”部分列出的种个事件中的每种随机选择了四张照片。对于每个问题,我们向评估人员展示了两张照片,一张是由基线制作,另一张是由 EventBuilder
制作。我们要求评估人员选择与事件相关的照片。我们收到了来自11个国家/地区(例如印度,新加坡,美国和德国)的63位用户的63条回复,并接受了52条回复。由于用户研究中使用的所有照片的完整细节(内容和上下文信息)都是已知的,因此很容易为它们分配基本事实。我们基于两个指标
(i)准确率,召回率和F值
(ii)余弦相似度
将用户的响应与基本事实进行了比较。这些分数代表用户与 基线 和 EventBuilder
系统产生的结果的一致程度。实验结果证实,与基线相比,用户通常更认同 EventBuilder
产生的结果(参见表2)。我们使用以下方程式来计算准确率,召回率和F值 和余弦相似度:
其中
G
G
G 和
U
U
U 分别是 基本事实 和用户响应的特征向量。
∣
U
∣
| U |
∣U∣ 是用户研究中的问题数,
∣
G
∣
| G |
∣G∣ 是与相应事件相关的照片数量。
#
[
G
∧
U
]
#[G \wedge U]
#[G∧U]表示用户与基本事实一致的次数。
∣
∣
G
∣
∣
|| G ||
∣∣G∣∣ 和
∣
∣
U
∣
∣
|| U ||
∣∣U∣∣ 分别是
G
G
G 和
U
U
U 的特征向量的大小。
事件摘要
为了评估由 EventBuilder
系统生成的文本摘要,我们基于用户应考虑的三种观点进行了用户研究:
(i)信息量,表明用户在多大程度上感觉到该摘要反映了事件的本质
(ii)体验,指用户是否认为摘要有助于理解事件
(iii)接受度,指如果 Flickr将摘要集成到系统中,则用户是否愿意使用此事件摘要功能。
我们要求十位评估者评估文本摘要,并提供1到5分,分数越高表明满意度越高。由于摘要的长度通常在150到300个单词之间,因此在评估过程中默认事件摘要长度
L
‾
\overline L
L 被设置为150个单词。我们要求用户对源自照片描述的Flickr摘要(基线)和源自维基百科的事件文章的Wikipedia摘要(EventBuilder
)进行评分。图5中的实验结果表明,用户通常认为Wikipedia摘要比基线更有意义,并且可以帮助他们更好地理解事件。但是,Flickr摘要也非常有用,因为它概述了用户对事件的看法。
4.2 EventSensor
为了评估EventSensor系统,我们提取了YFCC100M 数据集的多媒体项,其中包含情绪标签,例如愤怒,厌恶,喜悦,悲伤,惊奇和恐惧,或它们的同义词。这样,我们发现了120万条记录。接下来,我们为以上六个带有标题,描述和标签元数据的情绪标签随机选择10张照片。随后,我们将这些照片随机分为六组,每组10张照片,并将它们分配给随机评估者。与 EventBuilder
用户研究类似,我们添加了冗余以提供一致性检查。每张照片平均收到 17.5 条回复。从接受的响应中,我们为每张照片创建了一个六维的情绪向量作为基本事实,并将其与不同方法的计算出的情绪向量 使用余弦相似度进行了比较。在 EventSensor
中,我们调查了不同元数据在确定多媒体内容中的情感线索时的重要性。图6显示了当在分析中考虑不同的元数据及其组合时,情感分析的准确性(与众包获得的情感信息达成一致)。
实验结果表明,用户标签对于确定照片的情感信息最为有用。为什么在语义分析中仅考虑用户标签比其他方式表现更好的可能原因如下:
(i)与其他元数据相比,标签对语义的理解更容易;
(ii)用户的标签表明有关多媒体内容的重要信息
(iii)通常,用户的标签比其他元数据噪音小。
由于社交媒体上的大多数照片都不包含用户标签,描述和标题之类的信息,因此有必要考虑一种融合技术,该技术可以提供最准确的情感信息,而与照片包含的元数据无关。因此,我们提出了一种融合来自不同模态的信息的方法,以进行有效的情感分析(请参见算法1)。我们基于算术,几何和调和方法进行了情绪向量的融合,发现基于算术平均值的融合比其他两种方法表现更好。
5. 结论
我们介绍了实时多媒体摘要系统,称为EventBuilder
和 EventSensor
。他们分别对来自社交媒体(例如Flickr)的多媒体内容执行语义和情感分析。我们的系统通过允许用户通过选择事件名称、时间戳和情绪标记来生成摘要,从而呈现多媒体摘要。它们实时生成多媒体摘要,并基于输入语义和情感查询,促进对大量UGCs的有效访问。 EventBuilder
执行脱机事件检测,然后通过解决优化问题为给定事件生成实时多媒体摘要。 EventSensor
使用户能够获取基于情感的多媒体摘要,例如具有匹配配乐的照片幻灯片。如果用户选择情绪标签作为输入,则选择与输入情绪标签相对应的配乐。如果用户选择一个事件作为输入,则对应于代表集中照片中最频繁的情绪标签的配乐将附加到幻灯片上。 YFCC100M 数据集上的实验结果证实,我们的系统优于其基线。