标题 论文笔记 Multimodal Relational Tensor Network for Sentiment and Emotion Classification
摘要:受 (Zadeh et al., 2017) and (Poria et al., 2017)影响,提出关系张量网络体系结构,使用一个片段内模态间的相互作用,也考虑在一个视频片段的序列,模拟片段间模态间的相互作用。我们还通过以下方式生成丰富的文本和音频表示:利用更丰富的音频和语言上下文,以及融合基于文本极性分数的细粒度的知识。
1 Introduction介绍
情绪被定义为对重大事件的简要有机同步的评价,而情感则被认为是对对象或人更持久的信念和倾向
本文提到的技术:(1)一种在多模态时间段中新的跨模态融合技术(2)使用丰富的浅层语义领域知识,包括大量的心理语言学特征和资源进行情绪和情感分类(3)使用一种新的方法和结构提取情感感知声学音素水平特征。
text modality: (i) 融合词库作为附加输入特征 (ii) 融合极性鉴别词法句法细粒度分数作为附加输入特征(iii)丰富的上下文化嵌入融合,作为分类管道的附加输入特征。
audio modality, 使用了一个新的 pipeline生成iVectors和音素级的话语特征。对于多模态信息融合,探讨了利用模态内和模态间,并融合在一个新的关系张量网络架构。
3 Model Description 模型描述
数据集为a part of the CMU Multimodal Data SDK。文本特征:Glove embeddings ,音频特征:基于COVAR