定义
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的。而我们在信息检索的需求往往不只是同一事件单一模态的数据,也可能需要其他模态的数据来丰富我们对同一事物或事件的认知,此时就需要跨模态检索来实现不同模态数据之间的检索。
跨模态学习进行联合特征学习和跨模态关系建模,旨在有效地利用不同模态内容的相关性进行系统性能优化。
跨模态与多模态检索
在跨模态检索中,检索结果的模态和查询的模态是不同的。比如,用户使用图像检索文本,视频和音频。跨模态检索的关键在于对不同模态的关系进行建模,难点就是跨越语义鸿沟。然而,当要检索的文档包含多模态的时候,一般的跨模态方法就无法直接应用到多模态检索。
多模态检索方法可以处理带有多个模态的多媒体数据,在多模态检索中,查询和要检索的文档可能包含不止一个模态。多模态检索方法可以用来提高单模态检索的准确度。多模态和跨模态检索的主要区别在于: 在多模态检索中,查询和要检索的文档必须至少有一个模态是相同的。多模态方法通常是融合不同的模态进行检索,而不是对他们的关系进行建模。比如,在许多多模态图像检索系统中,查询图像可能都有相关的文本,要检索的图像也包含相关的文本信息。而如果查询和要检索的文档没有相同的模态,那么这就是跨模态要解决的问题,传统的多模态方法就无能为力了。
参考:https://blog.51cto.com/xuhaijiao/1305661
挑战
虽然多模态数据带来了更多的信息,但是分析和处理来自不同模态的异构数据(如音频数据,图像数据,文本数据)给研究人员带来了巨大的挑战。多模态数据带来更多的有效信息的同时也带来了更多的无效信息. 帮助情感分析系统对情感进行更准确的别, 如何从这些信息中挖掘出对情感分类有用的信息,如何高效融合来自不同模态的情感信息成为多模态情感分析面临的主要挑战。
特征粒度
相关研究工作可以根据使用的特征粒度分为两类工作,一类是基于句子级别特征的多模态特征融合方法。句子级别特征指的是使用一个整体特征向量表征整个句子,一整段音频,或一系列视频帧。
基于句子级别特征的多模态特征融合方法的好处是可以基于全局特征进行预测,但是缺点是忽略了不同模态的局部特征之间的对齐关系。因此,另一类方法是基于词级别特征的多模态特征融合方法。
多模态情感分析
第一点是,多模态情感分析中文本模态占据主要地位,以往实验结果表明当去掉文本模态后模型结果相比去去掉其它模态产生了巨大的下降。第二点是,相对于文本模态来说,其他模态提供了两类信息,一类信息是共享语义,共享语义没有提供文本模态外的信息,但可以增强相应的语义,并使得模型更加鲁棒。另一类信息是私有语义,私有语义提供了文本之外的语义信息,并可以使得模型预测更加准确。基于这两点观察,我们提出了一种基于跨模态预测的以文本为中心的共享私有框架。在该框架中,我们利用跨模态预测任务来分辨共享特征以及私有特征,并设计了以文本为中心的多模态特征融合机制对多模态特征进行特征融合。
Figure 1:基于跨模态预测的共享特征与私有特征鉴别
具体来说,跨模态预测模型的输入是文本特征,输出是音频/图像特征。
私有特征是指通过文本特征难于预测出来的特征,即预测时损失函数值比较高的时间步的特征。
对不同模态的信息需要采用的处理和建模方式也不同
多模态方法的核心驱动就是: 更多的信息来源可以帮助我们做出更优的决策。
多模态模型策略在情感分析任务中是十分必要的。首先, 很多时候仅通过文本或者语音很难判准确判断出情感状态,一个极端例子是反讽。 反讽往往结合中性或者积极的文本内容和与内容不匹配的音频表达来完成一个消极(负向)的情感表达。这种情形仅靠单模态很难从根本上解决。其次,单模态模型容易受噪声影响而导致效果问题
例子
文本是积极的,面部表情是消极的,真实标签也是消极的,例如,基于视频评论的数据集,一个人用一种讽刺的面部表情说着"这个产品真好",标签是由标注者打的,显然是消极的。文本的多语义问题,一条积极文本在搭配消极与积极表情时,展现完全相反的语义。但如果这类样本大量存在的话,模型可能学习到的模式是:文本信息只发挥加强作用,提升与之融合的图像信息emotion,任务层主要就依靠加强后的图像信息emotion来判断。如果只有少量讽刺性的样本,那么模型可能学习不到上述那种模式,此时最好对其进行剔除。或者将两类样本分开,单独建模之后再模型融合。