【本科毕设】基于注意力机制的多模态情绪识别应用研究

摘  要

        情绪识别是人工智能中一个重要的领域,在商业服务、舆情分析等多个领域都有着广泛的应用。随着互联网技术的不断发展,越来越多的人开始在网络上使用图文、视频等多模态数据进行观点与情感的表达。相较于传统的单模态情感分析,多模态情感分析可以利用多种数据实现情感信息的增强与互补,从而提升识别效果。

        本文旨在提出一种基于低秩多模态融合方法的情绪识别模型,通过整合文本、语音和人脸表情三种模态的信息,提升情绪识别的准确性和鲁棒性。首先,针对传统单模态特征提取方法表征能力不足的问题,论文介绍了注意力机制并引入Transformer模型进行语音、文字、人脸表情三种模态的特征提取,针对多模态融合模型依赖于预先确定的单模态输入个数的问题,提出了一种基于张量外积的融合模型,并利用张量低秩分解将模型改进为低秩融合模型,将计算复杂度从指数级降低为线性,利用CTC对齐技术解决多模态数据之间的时间同步问题,并在MOSEI_senti、MOSI和IEMOCAP数据集上进行了验证。实验结果表明,低秩融合模型在各项指标上均达到了较高水平,证明其在多模态情绪识别任务中的有效性和实际应用潜力。

关 键 词:多模态情绪识别;注意力机制;低秩融合;张量融合

1 绪论

1.1研究背景及意义

        情绪是人们的一种心理状态,在人们感知、分析与决策等活动中发挥重要作用。人的情绪有多种表达方式,如一句话语,一个眼神,一个表情都能让人感受到对方的情感。随着计算机软硬件的飞速发展,人工智能技术快速进步,如何将人的情感赋予机器成为了一个十分重要的课题,即对人类的情绪进行分析计算。情绪识别主要对人产生情感时的外部行为进行研究,研究对象包括语音、对话内容、人脸表情、肢体动作和脑电波等生理参数。

        传统的情绪识别使用数学模型或机器学习来提取单模态信息并搭建情绪识别模型。这些算法通常使用人工提取的特征,例如面部表情、文本词表等来训练模型。优点是易于实现和解释,但是需要大量的人工特征提取和高质量的标注数据,且不能充分利用上下文语义信息。并且对数据集提出了较高标准的要求,不能很好地处理数据分布偏移问题,鲁棒性较差。

        同时,由于人们情感表达的多样性及方式的不确定性,情绪的表达随着场景及个人性格的变化而变化,因此仅依靠某一种模态数据进行情绪识别所获得的结果并不全面,这是单模态情绪识别的固有缺陷。

        针对以上问题,本文使用语音、文字和人脸表情三种模态进行情绪识别模型的构建,首先针对各模态数据传统特征提取能力不足的问题,使用基于注意力机制的transformer模型进行单模态特征提取;其次,使用多模态模型构建情绪识别模型,多模态情绪识别可以增加多种不同模态的信息的数据交互,以不同的角度分析情绪状态,有效提高了鲁棒性。

1.2研究现状

        情绪识别的核心在于识别并提取情感数据特征与人类情感状态之间的映射关系。由于人类情感是一个复杂的认知过程,心理学家们提出了多种情感模型来科学地量化情感状态,主要包括离散情感模型和维度情感模型。

        离散情感模型将不同的情感状态归纳为具体的类别,例如传统的喜怒哀乐就是一种离散情感模型。心理学家Ekman[12]提出了一种包含悲伤、恐惧、厌恶、惊讶、快乐和愤怒六种情感的离散情感模型,通过组合这些基本情感还可以形成更复杂的情感状态。

        维度情感模型的核心在于构建一个多维空间,并将所有人类情感映射到这个空间中的某个点。这个多维空间的每个点代表一种情感状态,点之间的距离反映了不同情感之间的差异。目前应用最广泛的维度情感模型是PAD三维情感模型,它通过愉悦度、唤醒度和支配度三个维度来描述人类的情感[11]。

        与离散情感模型不同,维度情感模型认为情感是连续变化的,可以在维度空间中找到相应的位置。这种模型能够更全面地反映人类情感的变化,但由于情感的复杂性,人们难以精确地在维度空间中量化情感状态。在实际应用中,往往采用离散情感模型来标注数据,因为它们更容易操作和理解。

        人工智能领域中情绪识别已经有超过二十年的发展历史,研究范围涵盖文本、语音、表情、肢体语言和脑电信号等。其中,文本、语音和人脸表情(图像)数据是最具代表性的研究数据源。随着数据种类的日益丰富和模型的逐渐大型化和复杂化,单一模态的数据情感信息已无法满足研究需求,多模态情感分析的研究因此变得越来越重要。

        多模态情绪识别是指利用两种及以上的模态信息来进行情绪识别,相比于单模态情绪识别它可以提高情绪识别的准确性和鲁棒性。多模态情绪识别时要考虑如何充分利用不同模态的数据信息,在保证模态情感信息语义完整的情况下,实现不同模态情感信息的互补。依据模态融合方式的不同可以分为:特征层融合、决策层融合与模型层融合,如图1-1所示。

        特征层融合是在提取各模态特征后进行浅层融合,通过拼接或加权求和等方式将不同模态的特征直接结合,形成一个包含所有模态数据的特征集,随后输入分类器进行情绪识别,是利用初步处理后的单模态的数据特征进行模态融合的方式,方法简单易实现。Hazarika等人[1]曾将提取出的文本、语音、图像数据特征全部使用一层全连接层转化成100维向量,使各单模态特征具有相同的维度,再将三个模态特征拼接成300维特征用于后续情感计算。

        决策层融合是在模型进行决策时进行模态间融合。先让各个模态构建自身的情绪识别模型,且不同模态的模型间互不影响,最后将各个模态的分析结果通过投票、加权与集成学习等方式确定最终结果。比如Huang等人[13]在面部表情和脑电信号的情感分析任务中,采用枚举权重规则和自适应增强两种方法进行决策层融合。在DEAP和MAHNOB-HCI数据集上的实验结果显示,多模态数据融合的情感分析效果优于任何单一模态的情感分析。

        模型层融合是在模型的中间实现不同模态情感信息的融合,在构建融合模型时,可以决定在哪些位置进行跨模态数据特征的交互。模型层融合策略主要通过构建深层神经网络来实现,增强模型的非线性表达能力,从而使其能够学习并拟合更复杂的数据特征分布。比如Siriwardhana等人[2]使用Roberta与speech-BERT预训练模型来提取文本与语音特征,通过浅层融合将文本和语音特征拼接起来,然后利用Co-Attentional机制实现语音与文本的跨模态情感信息交互与特征融合。

        目前,国内外在情绪识别领域已经有了很多研究成果和应用案例。比如MELD、IEMOCAP等一些公开的情绪识别数据库为情绪识别研究提供了标准化的数据集;Affectiva、Emotient等商业化的情绪识别平台提供了情绪识别和应用服务;EmoWatch、EmoSpark等创新的情绪识别产品提供了智能化的情绪交互体验。

图 1-1  三种模态融合方式

1.3本文主要研究内容

        本文使用语音、文字和人脸表情三种模态进行情绪识别模型的构建,提出了一种基于注意力机制的多模态情绪识别模型。本文的主要研究内容如下:

(1)利用基于注意力机制的transformer模型进行三种单模态的特征提取,高效地捕获各模态内部的关键情感信息并赋予更高的权重。

(2)利用基于张量外积的模型层模态融合模型来实现跨模态情感信息的交互与特征融合。

(3)优化模型,进行模态对齐,通过将张量和权重并行分解, 避免计算高维的张量,降低内存开销,将指数级的时间复杂度降低到了线性。

2 单模态特征提取

2.1注意力机制(Attention)

        注意力机制(Attention)是一种在计算机科学和机器学习中常用的技术,可以使模型在处理序列数据时更加准确和有效。在传统的神经网络中,每个神经元的输出只依赖于前一层的所有神经元的输出,而在注意力机制中,每个神经元的输出不仅仅取决于前一层的所有神经元的输出,还可以根据输入数据的不同部分进行加权,即对不同部分赋予不同的权重,从而可以使模型更加关注输入序列中的关键信息,提高模型的精度和效率。

2.1.1注意力机制原理

注意力机制的核心思想是为输入序列中的每个元素分配一个权重值,这些权重值将决定模型在处理输入序列时的关注程度,权重值由一个可学习的函数计算得出,这个函数通常是一个神经网络,注意力机制的具体计算过程如图2-1所示:

首先步骤一根据Query和Key计算两者之间的相关性或相似性,即函数F(Q,K),得到注意力得分,计算相关性的方法有多种,比如点积

余弦相似度

引入一个额外的神经网络即MLP

其中Similarity(Query,Keyi)表示注意力得分,Query为查询向量,通常是来自于当前处理的目标序列位置的隐藏状态。它捕捉了目标序列中当前位置的信息,用于决定模型在输入序列中的哪些位置应该受到更多的关注。Keyi是键向量,是来自于输入序列中每个元素的隐藏状态,它包含了输入序列中每个位置的信息。

      步骤二对注意力得分进行归一化,利用Softmax函数可以将原始计算分值整理成所有元素权重之和为1的概率分布,其次Softmax的内在机制可以更加突出重要元素的权重,一般采用如下公式计算

其中ai为权重系数,Simi为阶段一得到的注意力得分,Lx为序列的元素个数。

      步骤三根据权重系数对Value值进行加权求和

其中ai为阶段二得到的权重系数,Valuei为序列本身的特征向量,通常和Keyi成对出现,Lx为序列的元素个数。

图 2-1  注意力机制的计算过程

2.1.2自注意力机制(self-Attention

        自注意力机制实际上是注意力机制中的一种,也是一种网络的构型,它只关注输入序列元素之间的关系,即每个输入元素都有它自己的Query、Key、Value,自注意力机制实际上是想让机器注意到整个输入中不同部分之间的相关性,减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。

        比如对于英-中机器翻译来说,输入序列是英文句子,输出序列是对应的翻译出的中文句子,注意力机制发生在输入序列、Query和输出序列中的所有元素之间。而自注意力机制是发生在输入序列内部元素之间或者输出序列内部元素之间,也可以将自注意力机制理解为输入序列和输出序列相同这种特殊情况下的注意力机制。

        自注意力机制的关键点在于,Query、Key、Value是同一个东西,或者三者来源于同一个向量X,三者同源,计算公式如下

其中X为输入的特征序列,Wq、Wk、Wv为可训练矩阵,是需要学习得到的参数。

    后续计算过程与注意力机制相同,可以理解为自注意力机制中的Query是对自身输入的变换,而在传统的注意力机制中,Query来自于外部,自注意力机制的计算可以简化为以下公式

其中Q、K、V分别代表Query、Key、Value,dk为缩放因子,其值等于输入序列的维度。因为在Query和Key维度较大的时候,点乘的结果会很大,导致Softmax函数的梯度会趋近于0,也就是梯度消失,如果将点乘的结果进行缩放操作,也就是除以dk,就可以有效控制方差从dk回到1,也就是避免梯度消失的问题。

2.1.3多头注意力机制(Muti-Head Attention)

        自注意力机制的不足之处是,模型在处理某个位置的输入时,可能会过度关注该位置自身的信息,而忽略其他重要位置的上下文信息,有效信息抓取能力相对较差,多头注意力机制可以有效解决这一问题,实际应用范围也更广泛。

        多头注意力机制是在自注意力机制的基础上,使用多种变换生成的Query、Key、Value进行计算,将Query、Key、Value分成多个子向量,然后分别计算每个子向量的注意力,最后将结果拼接起来,再将它们对相关性的结论综合考虑,进一步增强自注意力的效果,可以使模型关注多种不同的信息。

        当给出相同的Query、Key和Value集合时,我们希望模型能够在一致的注意力机制下学习到不同的行为模式,并将这些行为整合为知识,从而有效捕捉序列中各种长度的依赖关系,包括短距离和长距离的依赖。因此,允许注意力机制结合Query、Key和Value的不同子空间表示,可能对模型性能的提升具有显著作用。我们可以用独立学习得到的h组(一般h=8)不同的Query、Key、Value,然后将h组不同的Query、Key、Value并行地送到注意力模型中,最后,将这h个注意力模型的输出直接拼接在一起,并且通过另一个可以学习的全连接层进行变换,以产生最终输出。上述即为多头注意力机制的基本流程。

        多头注意力有h次机会学习得到多组不一样的Wq、Wk、Wv,然后把h个头拼接起来,最后再做一次投影,具体流程如图2-2所示,这种做法有一些像卷积网络CNN的多输出通道。

        首先,对于同样的输入序列X,定义h组Wq、Wk、Wv每组分别计算得到h组不同的可训练的参数矩阵Query、Key、Value,分别通过自注意力机制模型学习并将得到的h组不同的加权后的特征矩阵Zi(i=1,2,…,h),将Zi拼接成一个大尺寸的特征矩阵Z,最后将Z作为输入通过另一个可以训练的线性投影模型进行变换。

图 2-2  多头注意力机制流程

2.2Transformer模型

2.2.1Encoder-Decoder框架

        Encoder即编码器,负责根据输入序列的内容将其压缩成指定长度的向量,这个向量可以看作是输入序列的语义,然后进行编码或进行特征提取,简单来说就是机器读取数据的过程,将现实问题转化成数学问题。

        Decoder即解码器,负责根据Encoder部分输出的语义向量来做解码工作。在翻译任务中就是生成相应的译文,简单来说就是把数学问题转换为现实问题的解决方案。

图 2-3  Encoder-Decoder框架流程

2.2.2模型架构

        注意力机制虽然考虑了所有的输入向量,但没有考虑到向量的位置信息。在实际的文字处理问题中,可能在不同位置词语具有不同的性质,比如动词往往较低频率出现在句首, 而Transformer模型中输入序列由原始向量X通过Word Embedding和Position Embedding相加得到。

         Word Embedding为词嵌入层,负责将自然语言转化为与其对应的独一无二的词向量表达,常用的方法有One-Hot编码和数字表示;Position Embedding为位置编码层,因为 Transformer中不包含递归或卷积,为了使模型可以利用序列顺序,我们必须标记序列分词的相对或者绝对位置信息。通常Position Embedding可以通过训练得到,在Transformer中采用不同频率的正弦和余弦函数计算,计算公式为

其中pos是位置,i是维度,也就是说,位置编码的每个维度对应于一个正弦波。

        大多数有竞争力的神经序列转导模型都有Encoder-Decoder结构。Transformer也不例外,Transformer的编码器会将输入的符号表示序列映射为连续表示序列。给定连续表示序列后,解码器产生一个输出序列,每次只产生一个元素,每一步该模型都是自动循环的,在生成下一个元素时,消耗先前生成的元素作为额外的输入。Transformer在编码器和解码器中都使用了堆叠式注意力机制和点式全连接层,分别在图2-4的左半部和右半部显示[7]。

图 2-4  Transformer模型架构

       Transformer的编码器是由N=6个相同的层堆叠而成,每层有两个子层。子层的第一层是一个多头注意力机制,第二层是一个全连接前馈网络即MLP,子层的输出都要做一个残差连接和层归一化(Layer Normal),残差连接需要输入向量和输出向量的维度一致,所以每一层的输出维度均为512维。

       解码器也是由N=6个相同的层堆叠而成,与编码器不同的是,除了每个编码器层的两个子层之外,解码器还插入了第三个子层,这个子层会对编码器的输出进行多头注意力,与编码器类似,我们在每个子层输出都要做一个残差连接和层归一化。另外对第一个子层的多头注意力机制进行修改,防止某个位置受后续的位置的影响。确保位置i的预测只依赖于小于i的位置的已知输出,这也决定了编码时可以一次性生成,而解码时只能一个个生成。

       Transformer模型的输出就是一个标准的全连接层后进行Softmax函数计算,层归一化(Layer Normal)和Batch Normal在很多时候几乎一样,除了实现方法不同,Batch Normal取的是不同样本的同一个特征,而Layer Normal取的是同一个样本的不同特征,Layer Normal得到的模型更稳定且能起到正则化的作用。

2.3相较于传统模型的优势

        与传统提取方法相比,Transformer是一种基于神经网络的自动特征提取模型。它通过注意力机制和多层神经网络结构,能够自动学习输入序列中的关键信息,并生成更加抽象和语义丰富的表示,从而避免了特征工程和人工设计规则的繁琐过程,使得模型更加高效和通用。

        语音、文字和人脸表情的特征提取通常会使用支持向量机、隐马尔可夫模型、卷积神经网络(CNN)或循环神经网络(RNN),使用这些模型提取特征向量时,由于神经网络接收的输入序列是很多大小不一的向量,并且不同向量之间有一定的关系,但是实际训练的时候这些模型无法充分发挥这些输入之间的关系从而导致模型训练结果效果较差,相比之下Transformer模型具有更强的能力来捕捉序列数据中的时间和空间信息,这有助于提高情绪识别的准确性;其次Transformer模型引入了多头自注意力机制,可以更好地捕捉数据中的长距离依赖关系,具有更好的全局信息感知能力,这在情绪识别任务中尤为重要,因为情绪往往受到文本、语音或图像中多个要素的影响;同时,由于其结构设计上的特点,Transformer模型可以更好地学习到更抽象的表征,而传统的CNN方法更倾向于学习局部特征。最后,Transformer模型的计算可以更好地进行并行处理,相较于循环神经网络等模型,这加快了模型训练和推理的速度,从而提高了效率。

2.4本章小结

        本章首先深入介绍了注意力机制的原理和计算方法,接着对Transformer模型进行了详细阐述,包括其注意力机制、位置编码和前馈神经网络等组成要素,最后本章对比了传统的特征提取方法与使用Transformer模型进行单模态特征提取的优势,阐明了Transformer模型在单模态特征提取任务中具有更强的建模能力、更好的全局特征感知能力以及更具泛化能力的优势,这些优势使得Transformer模型在处理单模态数据时能够更好地捕捉数据中的内在关系,从而在情绪识别的任务中取得更为卓越的性能表现。

3 多模态融合

3.1多模态情绪识别框架

        多模态情绪识别旨在同时利用文本、语音、图像等多种模态的数据进行情绪识别任务,以提高情绪识别的效果。这种方法具有明显的优势,一方面各模态可以相互利用其他模态的信息以加强自身的情感特征表达,另一方面各模态所包含的情感信息并不完全相同,引入多种模态数据可以实现情感信息的互补。

        尽管多模态情感分析的具体方法在细节上存在差异,但大多数算法的整体框架大同小异,并且可以通过图3-1来进行抽象描述。整体框架主要由两个核心部分构成,即各模态的特征提取模块和各模态的融合模块。模态特征提取模块负责从不同形式的数据中提取特征,这些特征应该包含该模态数据丰富的情感语义信息。而模态融合模块则负责对不同数据特征进行情感语义融合,实现跨模态情感信息的深入交互与特征融合。

图 3-1  多模态情感分析框架

3.2张量融合网络

3.2.1一般融合模型的局限

        当设计多模态融合模型时,传统的方法通常都会依赖于预先确定的单模态输入个数,这限制了模型的扩展性和灵活性。在这种情况下,即便是在同一领域的应用中,如果需要增加或减少模态的个数,往往需要重新设计模型架构,引入新的参数和交互机制。然而,张量融合模型却提供了一种更灵活的框架,它不受单模态输入个数的限制。在张量融合模型中,添加或减少模态时,无需考虑之前模态的交互影响,而是仅仅进行简单的张量外积运算。这种特性使得张量融合模型具有更好的扩展性和灵活性,能够更加方便地适应不同数量的单模态输入。

        此外,张量融合网络还具有其他显著优势。张量融合网络能够充分捕捉模态间的高阶交互信息。传统的融合模型往往只能捕捉模态间的线性、二阶等低阶交互,而张量融合模型则具有更强的能力,能够有效地捕捉到模态间的高阶交互信息。通过进行张量外积运算,能够充分挖掘模态间的复杂关联,从而提高了特征的丰富性和表征能力。

        张量融合模型还具有更强的泛化能力。在许多场景下,原始的特征空间往往是高维、复杂的,传统的融合模型可能会面临维度灾难等问题。而张量融合模型通过张量外积运算,实现了不同模态特征的高阶交互,能够更好地应对高维特征空间的挑战,提高了模型对复杂数据的泛化能力。

        张量融合模型还具有更强的信息整合能力。在多模态场景下,不同模态所包含的信息往往是互补的,传统的融合模型可能无法充分地将不同模态的信息整合起来。而张量融合模型通过张量外积运算,能够实现不同模态特征之间的深度交互和整合,充分挖掘各模态的信息,提高了模型对整合数据的理解能力。

        综上所述,张量融合模型以其灵活的模态扩展性、高阶交互能力、泛化能力和信息整合能力,在多模态融合场景中具有明显的优势。这些特点使得张量融合模型成为处理多模态数据的有效工具,为相关应用领域带来了新的可能性。

​​​​​​​3.2.2模型结构

        当我们准备进行多模态融合的时候,我们先得到了三种单模态的特征向量,即语音、文字和人脸表情的特征向量,这些特征向量捕捉了每种模态所包含的信息和特征。在进行张量融合网络之前,我们需要对这些特征向量进行处理,一种常见的处理方法是通过扩充一维,并赋值为数字1。这种扩充一维的操作保留了原模态的信息,扩充一维后,原模态的特征向量所含有的信息不会发生改变,模态外积后也依然保持了其原有的特征信息,这有助于确保每个模态的信息在融合之后仍能得到有效的体现。同时也不会干扰我们计算模态间的相关性,我们实际上在进行张量外积运算时也计算了两种或多种模态间的相关性。相关性的计算对于后续的特征融合非常重要,它有助于捕捉不同模态之间的交互信息,帮助提高模态融合后特征的丰富性和表征能力。

        所以张量融合网络融合层被定义为三折笛卡尔积,计算方式如下式(3-1)所示

式中多余的常数1维度将会产生单模态和双模态,每一个元组(zT,zV,zA)都是一个三折笛卡尔空间中的由文本、语音和人脸表情表征定义的三维点。

       通过三种单模态的外积计算可以得到如图3-2所示的七个语义不同的子空间[5],计算公式如下

七种子空间中,zT、zV和zA这三个子区域是在张量融合网络中形成中的单模态嵌入。它们分别代表了每种模态特征的张量表示,而这些表示在后续的融合过程中将被用来捕捉单模态特征的重要信息;zT⊗zV、zV⊗zA和zA⊗zT这三个子区域代表了在张量融合过程中的双模态相互作用。它们捕捉了不同模态之间的相互关系,帮助我们捕捉到不同模态之间的交互信息。通过这些双模态相互作用的子区域,可以更好地理解和挖掘不同模态之间的关联性;最后一个子区域zT⊗zV⊗zA捕捉了三模态之间的相互作用。它能够捕捉到所有三种模态之间的交互信息,能够帮助我们充分理解和挖掘多模态数据的丰富信息,提高了模型对复杂多模态数据的理解能力。

图 3-2  张量融合网络示意图

三种模态的外积计算完成之后,需要将其通过一个线性层变成所需要的维度的向量,计算方式如下

其中h为目标向量,Z为扩充了一维数字1后各模态特征向量的外积结果,W是权重参数,b是偏置,两者都需通过后续模型的训练来确定参数。

​​​​​​​3.2.3局限性

        尽管张量融合模型有增加或减少模态个数时不需重新设计模型的优势,但随着模态数量的增加,该模型的时间复杂度会呈指数级增长,进而降低了计算效率,这正是该模型的局限性之一。这种高时间复杂度会导致对系统计算能力的巨大消耗,尤其是在情绪识别等需要实时性能的任务中,这将不利于模型的应用和实际操作。

        另外,随着模态数量的增加,模型还面临着维度灾难的问题。维度灾难是指随着数据维度的增加,数据在特征空间中的稀疏性显著增加,导致需要的数据量呈指数级增长,这将对模型的训练和泛化能力造成挑战。对于张量融合模型来说,当模态数量增多时,其所需的存储空间和计算资源将呈现出指数级增长的趋势,增加了模型的复杂性和实现难度。

        在针对实际任务中的多模态数据,张量融合模型可能对数据的依赖性较强。这意味着在一些情况下,当数据质量或者数据缺失时,模型的性能可能会受到较大影响,从而限制了模型在实际应用中的鲁棒性和稳定性。

3.3低秩多模态融合

​​​​​​​3.3.1低秩分解

        张量的低秩分解通常是指将高阶张量分解为多个低阶张量外积的形式,类似于矩阵的奇异值分解。在矩阵的情况下,奇异值所提供的信息是一维的,而在高维张量的情况下,我们需要考虑多维信息的低秩表示。

        对于一个三阶张量X∈RI×J×K,可以表示为三个模态的矩阵乘积的形式

其中,G∈RP×Q×R是一个低秩核张量(即低秩分解的核矩阵),A∈RI×P、B∈RJ×Q、C∈RK×R分别为三个模态上的因子矩阵,即张量在每个模态上的基矩阵或者是主成分,×1、×2、×3分别表示在三种模态上的乘积操作。这种张量的低秩分解可以用来提取多模态数据之间的关联信息,实现对张量的有效表示和近似。将式(3-4)写成矩阵形式

其中ai∈RI、bi ∈RJ、ci∈RK分别是X的三个模态的核向量,r是秩。这种分解形式可以用来提取多模态数据之间的共享信息和模式,实现对张量数据的降维和压缩。

​​​​​​​3.3.2模型结构

        在张量融合网络中,由于特征表征Z是由多个特征向量外积得到,扩充了维度,那么最后权重张量W中要学习的参数数量也将成倍增加。这不仅引入了大量计算,而且使模型面临过度拟合的风险。

        由张量融合网络我们可以得到特征表征Z的计算公式

zm是扩充了一维数字1后的各模态特征向量,目标向量h为

若zm的维度为dm,目标向量h的目标维度为dh,又因为Z是M阶张量,因此可训练张量W为M+1阶的张量,维度为d1×d2×…×dM×dh。在进行张量点积的过程中,我们可以把W看作为dh个M阶张量,每个张量记作Wk,k=1,2…,dh,维度为d1×d2×…×dM,每一个Wk都在输出向量h中贡献一个维度,即

图3-3为用两个模态的特征融合解释上述步骤。

图 3-3  双模态特征融合过程

       对Wk进行低秩分解可得

最小的使得分解有效的R称为张量的rank,我们固定R为r,r在模型中为超参数,可以根据测试结果进行适当调整,令

那么低秩的权重张量W可以用式(3-11)重建得到

这样,我们可以将张量融合网络的目标向量h的计算公式改写为(此处省略偏置b)

其中⋀表示一系列张量的元素积,两种模态的融合过程可以用图3-4表示。

图 3-4  双模态融合流程框架

三模态的低秩融合模型的代码实现如图3-5所示,其中last_h_a、last_h_v和last_h_l分别代表单模态特征提取后的语言、视频和文字模态,_audio_h、_video_h和_text_h分别为扩充一维数字1后的三种三模态向量,audio_factor、video_factor和text_factor分别为三个可训练的权重矩阵,它们将在后续迭代训练中确定最终参数,fusion_zy为三种模态张量外积后的最终结果,last_hs为低秩融合模型的最终输出,即目标向量h。

图 3-5  低秩融合模型的代码实现

​​​​​​​3.3.3低秩融合的优势

低秩融合模型实现了对特征表征Z和权重张量W的并行分解,避免了从各单模态特征向量zm创建高维Z的繁琐过程,大大降低了计算复杂性。不同的模态之间是解耦的。这意味着每个模态的特征提取与表示是相互独立的,相应的参数可以单独学习,从而使得方法更具灵活性和扩展性,相比之下,原始的张量融合方法在处理多模态数据时需要考虑不同模态之间的交互问题,参数学习和特征提取会受到模态之间的耦合影响,限制了其在实际应用中的灵活性。此外,低秩融合方法还是可微的,可以通过反向传播来优化参数,使得模型在训练过程中能够更加高效地学习到数据的特征和模式。这不仅提高了模型的训练速度,还使得模型在实际应用中更容易调整和优化,进一步增强了其适用性和实用性。

由于原始的张量融合方法需要耗费大量的计算资源和时间来创建高维特征表征Z,因此具有较高的计算复杂性。而低秩融合的方法通过对Z和W的并行分解,避免了这一过程,将张量融合方法O(dy指数级的计算复杂度降低到线性的计算复杂度[6]。所以低秩融合模型在处理大规模数据时将更加高效,并且在资源受限的环境中也能够发挥出其强大的性能。

​​​​​​​3.4本章小结

        本章深入探讨了多模态融合的方法。首先细致阐述了张量融合模型在多模态数据融合中的应用,介绍了张量融合模型的结构和计算流程,详细讲解了通过对单模态特征向量进行扩充一维并进行张量外积运算,以及所得到的七个语义不同的子区域在融合过程中的作用。特别强调了该模型在捕捉不同模态特征间相互作用的能力,以及对多模态数据进行综合分析的优势。同时也指出了张量融合模型的局限性,其中最重要的局限性是随着模态数量的增加,模型的时间复杂度呈指数级增长,这将导致计算效率的严重下降,对于某些实时性要求较高的任务,这将是一个挑战。

        接着提出了改善张量融合模型时间复杂度过高的方法,介绍了张量的低秩分解,深入探讨了通过低秩分解可以对高阶张量进行有效表示和近似的方法,解释了如何通过多模态乘积操作实现对张量的低秩分解。接着阐明了低秩融合方法相对于张量融合网络的改进之处,包括对特征表征Z和权重张量W的并行分解,避免了高维Z的创建过程,以及模态间解耦的特点。这些改进大大降低了低秩融合方法的计算复杂度,提高了灵活性、扩展性和可优化性,使低秩融合方法更具实际应用价值。

实验与结果分析​​​​​​​

4.1数据集

        本次实验采用MOSEI_senti、IEMOCAP和MOSI三种数据集进行模型的训练,旨在通过不同的数据集涵盖的不同的情境和语境,为模型提供更加多样化和全面的训练样本,让模型更有可能学习到普适性的特征和模式,从而提高对新样本的泛化能力。同时单一数据集可能存在一定的偏差,例如在数据收集、标注等方面存在差异。使用多个数据集可以部分地弥补单一数据集的局限性,有助于消除数据集本身的偏差,提高模型的鲁棒性和稳健性。

​​​​​​​4.1.1MOSEI_senti据集

        通常MOSEI_senti数据集包含数万条音频、文本和视频样本。其中包括对话、影评、情感表达等,以保证数据的多样性和丰富性,MOSEI_senti数据集将情绪划分为多种常见的情感指标,包括高兴、悲伤、愤怒、惊讶、厌恶、恐惧等基本情绪。

​​​​​​​4.1.2IEMOCAP数据集

        IEMOCAP数据集包含大约10个小时的对话录音,共计大约12,000个情感标注。数据样本是由5名专业男演员与5名专业女演员在脚本或即兴发挥下完成的,含有文本、语音与视频等多个模态数据,其中共有9个有效离散标签,样本覆盖了各种情感交互场景,例如采访、角色扮演和情景对话等,该数据集涵盖了高兴、悲伤、惊讶、愤怒、中性等基本情绪,其次还包括一些相对复杂的情绪状态和情感交互,如亲密、挑衅、无助等,该数据集相较于另外两个数据集情绪表达更加复杂和多样化。

​​​​​​​4.1.3MOSI数据集

        该数据集包含文本、视频和音频模态的信息,总计包含数千个样本,涵盖了各种情感表达的文本片段、面部表情、语音以及社交互动等。MOSI数据集中包含情感强度的预测,覆盖了基本的情绪(高兴、悲伤、惊讶、愤怒、厌恶、恐惧)以及情感极性。

​​​​​​​4.2数据预处理

        很多数据集中存在缺失值,数据预处理可以选择适当的方法填补缺失值,保证数据的完整性,帮助我们清洗数据、去除噪声和异常值,确保数据的质量,并完成提取特征、选择特征或者对特征进行转换,帮助模型更好地理解和学习数据。

​​​​​​​4.2.1文字预处理

        文字模态的预处理目标是将原始的文本数据转换成可以供模型训练和分析的格式,即将语言文字向量化。

        文本向量化是处理自然语言文本数据的关键步骤,最初采用了独热编码(One-hot)、词袋模型、以及词频逆文本频率等方法来提取文本特征。独热编码将每个词映射为一个向量,向量的维度等于词汇表中的总词数,每个向量中对应该词的位置为1,其余位置为0。词袋模型则忽略了句子中的词语顺序,只关注每个词语在句子中出现的频率,并基于词频构建了句子的向量表示。而词频逆文本频率则是通过统计每个词语的频率以及它在各个文档中出现的频率,并使用相应的公式进行计算。然而,这些早期方法虽然能够获得文本特征,却无法准确理解句子的语义含义,同时也存在一定的局限性。例如,独热编码导致了巨大维度和向量的稀疏性,词袋模型需要构建大量的词汇表,且未能考虑句子的结构和语法,词频逆文本频率也未能体现句子中词语的语法和位置等信息。这些问题限制了这些基于统计方法获得的文本特征在语义理解上的表现和应用。

        Mikolov[3]提出的Word2Vec词向量模型文本表示方法很好地解决了这些问题。该模型利用大量的文本数据进行无监督训练,生成稠密词向量,并通过上下文预测任务进行训练,使得每个词的词向量能够蕴含其在句子中的语义。

        Word2Vec模型结构如图4-1所示。具体而言,首先对文本进行预处理,去除标点符号、特殊符号,并进行分词。对于输入的文本序列,将其中的每个词输入到Word2Vec词向量模型中以获取对应的词向量。当处理目标词语时,词向量模型会先将该词与词库中的所有词进行匹配;若找到该词,则将其转换成对应的one-hot编码,并输出相应的词向量。若在词向量模型中无法找到该词,则采用目标词上下文前后两个词的词向量平均值或零向量进行替代。在获得文本序列每个词的词向量后,可以将所有词向量组合起来得到整段文本的词向量矩阵。这种基于Word2Vec的文本表示方法充分地捕捉了语义信息,具有更好的通用性和表现能力,适用于各种自然语言处理任务。

图 4-1  Word2Vec模型结构

​​​​​​​4.2.2语音预处理

        在语音识别和语音处理领域,梅尔频率倒谱系数(MFCC)[8]是一种广泛使用的特征提取方法。

        FMCC的流程如图4-2所示。本实验音频的的采样率为20Hz,首先对音频信号进行预加重处理以突出高频信号并降低噪音,通过加权信号的高频部分,以补偿语音信号中的高频衰减,减少连续采样点之间的差异。对预处理后的音频信号进行分帧处理,将长音频信号切分为短时频谱分析窗口,每个窗口通常包含20到30毫秒的音频信号。经常采用汉明窗等窗口函数对每一帧信号进行加窗处理,以减少频谱泄漏并提高特征提取的准确性。对每个窗口的音频信号进行快速傅里叶变换,将时域信号转换为频域信号,得到能量谱,通过一组梅尔滤波器对傅里叶变换后的频谱数据进行滤波,这一步骤中,通常会使用20到40个梅尔滤波器。对滤波后的信号取对数运算,得到对数梅尔频谱系数,可以有效地减少动态范围,从而提高特征的稳定性,最后对取对数的梅尔频谱系数应用离散余弦变换,提取出MFCC系数。通常,保留前13个MFCC系数作为最终的语音特征。

图 4-2  FMCC流程

​​​​​​​4.2.3人脸表情预处理

        在本实验中,采用15Hz的采样率提取视觉信号,每秒钟获取15帧图像。每帧图像首先被转换为彩色图像的通用表示方式三通道的RGB表示,保留图像的颜色信息和细节特征。

        实验采用ResNet-50进行特征的预处理。ResNet-50是一种具有50层深度的卷积神经网络,被广泛应用于图像识别和视觉任务中。ResNet-50是一个深度残差网络框架,广泛应用于图像的特征提取。ResNet-50在传统卷积网络中加入残差结构,有效地解决了随着网络层数的加深网络模型会出现退化的问题以及深度网络的梯度消失问题[4],使得网络可以叠加的更深,效果更好。

        在ResNet-50中,每个卷积层都会提取出不同的特征信息,逐渐实现从底层的视觉特征到高层语义特征的映射变换。经过多个卷积层的处理,图像被映射为一个具有丰富语义信息的特征向量。

        ResNet-50的结构如图4-3所示。它总共包含五个阶段:第一阶段主要对输入尺寸为224×224的图像进行初步处理;第二至第五阶段则通过多个卷积模块组合来提取特征;最后,连接一层全连接层以输出图像的最终特征。

图 4-3  ResNet-50结构

​​​​​​​4.3模态对齐

        考虑到低秩融合模型对数据的依赖性较强,本研究还会探究数据对齐对多模态情绪识别实验指标的影响,数据对齐涉及到如何在不同的数据模态之间发现和建立对应关系。在多模态数据中,不同模态可能包含相互补充的信息,对齐就是将这些信息关联起来,使得可以从一个模态转移到另一个模态。举例来说,在视频处理中,声音和画面需要严格的时间同步,这需要进行语音特征和视频特征的对齐以确保二者之间的一致性。而在文本和图像结合的任务中,需要找出文本描述中的实体与图像中的对应部分,这也需要进行文本特征和图像特征的对齐。因此,数据对齐对于多模态情绪识别来说是至关重要的,在整合不同模态的信息以及实现模态之间的信息转换方面发挥着关键作用。

        本研究的数据对齐方法采用CTC对齐算法。CTC算法不要求在模型层面训练数据对齐,而是通过对齐前的分布进行变换得到对齐后的分布,因此在模型层面并未增加任何限制,CTC算法在进行对齐时是将概率均匀分配给所有可能的路径,而非将概率集中分配给某些特定路径。

        CTC对齐的主要代码如图4-4所示。其中ctc_criterion为CTC损失函数,用于计算CTC损失,CTC损失函数常用于处理序列到序列的预测问题,比如语音识别和手写识别。ctc_a2l_module和ctc_v2l_module是两个CTC模块,分别用于处理音频和文字和视频和文字的对齐。ctc_a2l_optimizer和ctc_v2l_optimizer为定义的优化器其中的参数都是可以人为改变的超参数,本次实验的学习率设置为0.001。

图 4-4  CTC模态对齐代码

​​​​​​​4.4模型结构

        本文实验使用Python编程语言与Pytorch框架进行模型的构建与实验。Python拥有丰富的第三方库,使得数据处理更加方便。而PyTorch框架集成了众多神经网络算法,支持动态神经网络,简洁高效且使用方便,使得模型构建变得更加轻松。

        除了使用Python编程语言与Pytorch学习框架外,在实验过程中还使用了如Numpy、Opencv、Sklearn等第三方库,其软件版本信息如表4-1所示:

表4-1 版本信息

名称

版本

Python

3.9

Pytorch

2.0.1

CUDA

11.6

Numpy

1.26.3

Opencv

4.8.0.76

Sklearn

1.0.2

Transformers

4.12.5

        本实验的模型结构如图4-5所示,首先分别运用Word2Vec词向量模型、MFCC和ResNet-50分别将数据集中的文字、语音和视频向量化,然后输入到Transformer模型进行特征提取,再将得到的三种单模态特征向量输入到低秩融合模型,以实现不同模态之间特征的融合,最后,将得到的向量输入到一个全连接层,以实现最终情绪识别的输出。

图 4-5  本实验模型结构

        在本实验中,通过Transformer模型提取的特征向量的维度在不同数据集上数值不同。具体而言,对于MOSEI_senti数据集,文本特征的维度为50,音频和人脸表情的特征维度均为500;对于IEMOCAP数据集,文本特征的维度为20,音频特征的维度为400,人脸表情特征的维度为500;而对于MOSI数据集,文本特征的维度为50,音频特征的维度为375,人脸表情特征的维度为500。若进行了模态对齐,则MOSEI_senti数据集、IEMOCAP数据集和MOSI数据集三种模态特征向量的维度分别为50、20、50。在三种数据集的实验中,所使用的Batchsize(每次迭代处理的样本数量)均为24,三种数据集上的训练轮次均为40,低秩融合模型的rank设置为8,最后用于预测的全连接层神经网络的输入维度为180,每个数据集样本都由人工注释用从-3(强烈负面)到3(强烈正面)的情感分数进行标记。

​​​​​​​4.5评价指标

        为了验证实验效果,评价模型效果的好坏,本文采用准确率(Accuracy)、F1分数(F1-socre)、平均绝对误差(MAE)及相对系数对模型性能进行评价。分类任务的结果可以分为四种情况,如表4-2所示:

表4-2 混淆矩阵

真实情况

预测结果

正例

反例

正例

TP(真正例)

FP(假反例)

反例

FN(假正例)

TN(真反例)

准确率是指模型正确预测的样本数量占总样本数量的比例:

        然而,准确率容易受到数据集中各类别样本数量比例的影响,尤其在数据集中存在类别分布不均衡的情况下,准确率不能充分评估模型性能。相对而言F1分数能够更好地避免由于数据集类别分布不均衡而带来的影响,因此被同时使用作为模型评价指标。F1分数综合考量了精确率(Precision)和召回率(Recall),能给出更全面的模型性能评估。

        平均绝对误差是评估预测值和真实值之间差异的平均绝对值。它提供了模型预测误差的平均水平,数值越小代表模型的预测越准确。

        相关系数在统计学中通常用于表示两个变量之间的关联程度。在情感识别任务中,可以用来衡量模型对情感分类的准确性。相关系数的取值范围在-1到1之间,绝对值越接近1表示模型预测和真实值之间的线性关系越强。

​​​​​​​4.6实验结果与分析

        在本研究中,我们成功地构建了基于注意力机制和低秩多模态融合的情绪识别模型,并在MOSEI_senti、IEMOCAP和MOSI三种数据集上进行了实验验证。实验结果表明,模型在情绪识别的准确性和鲁棒性方面均表现出色。

        MOSEI_senti数据集和MOSI数据集的实验结果如表4-3所示,可以看到在两种数据集上对齐后正确率均能达到75%以上,证明了低秩融合模型在多模态情绪识别任务中的可行性和有效性,可以看出CTC对齐方法在MOSEI_senti和MOSI数据集上均能有效提升模型的性能。这主要是因为 CTC对齐方法有效地处理了不同模态数据之间的时间同步问题,使得模型能够更准确地捕捉和融合文本、语音和人脸表情这三种模态的信息,使得模型能够更准确地捕捉到不同模态之间的信息关联,提高了模型的整体性能,通过低秩融合模型和CTC对齐方法的应用,模型在情绪识别性能达到了普遍需要的标准,显示出良好的准确性和鲁棒性。

表4-3 MOSEI_senti数据集和MOSI数据集在CTC对齐前后的实验结果

数据集

Accuracy/%

F1/%

MAE

相关系数

MOSEI_senti

77.52

78.21

0.7050

0.5561

MOSEI_senti(对齐)

79.00

79.10

0.6929

0.5761

MOSI

70.73

70.55

1.181

0.500

MOSI(对齐)

76.83

76.91

1.082

0.5739

        IEMOCAP数据集的实验结果如表4-4所示,可以看出在不同的情绪类别上模型的评价指标差异很大,最低准确率的情绪类别约为60%,勉强达到任务要求,而最高的准确率可达85%,达到了较高水平。CTC对齐对IEMOCAP数据集的影响也较为复杂,不同情绪类别的影响程度有所不同,对于IEMOCAP数据集,CTC对齐方法在一些情绪类别上有正面影响(如happy和angry),但在其他情绪类别上影响较小或略有下降(如neutral和sad)。这可能是由于IEMOCAP数据集中的情绪表达更加复杂和多样化,使得对齐过程中的一些不确定因素对模型性能产生了不同的影响。

表4-4 IEMOCAP数据集在CTC对齐前后的实验结果

情绪类别

Accuracy/%

F1/%

Neutral

59.17

43.99

Neutral(对齐)

59.17

43.99

Happy

85.61

78.97

Happy(对齐)

85.71

79.23

Sad

79.42

70.32

Sad(对齐)

79.21

70.21

Angry

75.80

65.37

Angry(对齐)

75.59

66.91

       本实验通过引入Transformer模型进行单模态特征提取,高效捕捉文本、语音和人脸表情三种模态数据的关键信息。提升了特征提取的精度,还为后续的多模态融合奠定了坚实基础。融合方法上采用了低秩分解技术,对多模态特征进行融合。相比传统的张量融合方法,低秩融合显著降低了计算复杂度,使得模型更加高效且易于扩展。

        实验数据显示,CTC对齐技术在不同数据集上的应用效果显著。例如,在MOSEI_senti和MOSI数据集上,对齐后的模型准确率分别达到了79.00%和76.83%,较未对齐模型分别提高了1.48%和6.10%。平均绝对误差(MAE)和相关系数的改进也进一步验证了CTC对齐的有效性。这主要得益于CTC对齐技术在处理多模态数据时间同步问题上的优越性,使得模型能够更准确地捕捉和融合不同模态的信息。

        在IEMOCAP数据集上,不同情绪类别的表现差异较大,CTC对齐在一些情绪类别上有显著提升,如“happy”类别的准确率由85.61%提升至85.71%,F1分数由78.97%提升至79.23%。然而,部分情绪类别在对齐后的指标略有下降,这表明在处理情绪表达更加复杂的数据时,对齐策略仍需优化。

        总体而言,本研究提出的多模态情绪识别模型在多种实验条件下均展现了较高的性能,特别是在情绪识别任务中的准确性和鲁棒性方面具有显著优势。未来的研究可以继续优化对齐策略,探索更多元的多模态融合方法,以及提升单模态特征提取的质量,从而进一步提高模型的性能和实际应用价值。

​​​​​​​4.7本章小结

        本章首先详细介绍了MOSEI_senti、MOSI和IEMOCAP这三种用于多模态情绪识别的标准数据集。接着针对文本、语音和人脸表情这三种模态的数据预处理方式进行了详细说明,包括Word2Vec、MFCC特征提取和ResNet-50方法的具体步骤。随后,本章介绍了模态对齐技术,特别是CTC对齐方法在处理多模态数据时的应用,并阐述了实验模型的结构构成。之后,本章对所采用的评价指标进行了说明,包括准确率、F1分数、平均绝对误差(MAE)和相关系数。最后,通过对实验结果的详细分析,展示了CTC对齐对模型性能的提升效果,并验证了模型在多模态情绪识别任务中的可行性和有效性。

结论与展望​​​​​​​

5.1结论

        本研究利用Transformer模型进行单模态特征提取,通过构建低秩融合模型,结合CTC对齐技术,实现了多模态情绪识别。Transformer模型具有强大的特征表示能力,能够捕捉长序列数据中的关键信息,通过引入Transformer模型,本研究实现了对文本、语音和人脸表情三种模态的高效特征提取,从而为多模态融合提供了坚实的基础。在此基础上,利用低秩分解技术,对多模态特征进行融合,显著降低了计算复杂度,使得模型更为高效。

        实验结果表明,采用CTC对齐的低秩融合模型在MOSEI_senti、MOSI和IEMOCAP数据集上均表现出了显著的性能提升。具体而言,CTC对齐技术有效地解决了不同模态数据之间的时间同步问题,显著提高了模型的准确率、F1分数和相关系数,降低了平均绝对误差(MAE)。这些结果不仅验证了低秩融合模型在情绪识别任务中的可行性,还展示了其在不同数据集上的广泛适用性。

        与已有的研究相比,本研究的模型输入不需要考虑单模态输入的个数,具有更好的扩展性和灵活性。传统多模态融合模型往往需要预先确定每种模态的输入数量,而本研究提出的低秩融合模型则通过张量外积和低秩分解技术,实现了对多模态输入的统一处理,不仅简化了模型设计,还提高了模型的适应性。该模型的应用价值体现在其能够高效整合文本、语音和人脸表情等多模态信息,从而为情绪识别提供了更全面和精准的解决方案。在实际应用中,这一模型具有广泛的推广潜力,可应用于人机交互、智能客服、心理健康监测等多个领域,提升用户体验和服务质量。

5.2展望

        尽管本研究取得了显著成果,但在实际应用中仍存在一些问题需要进一步探索。首先,在IEMOCAP数据集中,不同情绪类别在CTC对齐后的表现差异较大,这表明现有的对齐策略在处理复杂情绪数据时仍需优化。其次,模型对数据准确性和完整性的依赖较高,这间接提高了对单模态特征提取的需求。因此,未来的研究可以从以下几个方面展开:

(1)进一步优化对齐策略。具体来说,可以探索更复杂的对齐算法,结合上下文信息进行更精细的对齐处理,从而提高模型在复杂情绪数据集上的表现。

(2)探索更多元的多模态融合方法。在现有低秩融合模型的基础上,研究和引入更多先进的多模态融合技术,如基于深度学习的多模态注意力机制、跨模态转换网络等。

(3)优化单模态特征提取方法。针对文本、语音和人脸表情等单模态数据,探索和设计更优的特征提取方案。例如,可以采用更深层次的神经网络结构、预训练模型和数据增强技术,提升单模态特征的表示能力,为多模态融合提供更高质量的输入。

参考文献

  1. Hazarika D, Poria S, Zadeh A, et al. Conversational memory network for emotion recognition in dyadic dialogue videos[C]//Proceedings of the conference. Association for Computational Linguistics. North American Chapter. Meeting. NIH Public Access, 2018, 2018: 2122.
  2. Siriwardhana S, Reis A, Weerasekera R, et al. Jointly Fine-Tuning "BERT-like" Self Supervised Models to Improve Multimodal Speech Emotion Recognition[J]. arXiv preprint arXiv:2008.06682, 2020.
  3. Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.
  4. He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
  5. Zadeh A, Chen M, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[J]. arXiv preprint arXiv:1707.07250, 2017.
  6. Liu Z, Shen Y, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[J]. arXiv preprint arXiv:1806.00064, 2018.
  7. Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
  8. Mahmood A, Köse U. Speech recognition based on convolutional neural networks and MFCC algorithm[J]. Advances in Artificial Intelligence Research, 2021, 1(1): 6-12.
  9. Tsai Y H H, Bai S, Liang P P, et al. Multimodal transformer for unaligned multimodal language sequences[C]//Proceedings of the conference. Association for computational linguistics. Meeting. NIH Public Access, 2019, 2019: 6558.
  10. Siriwardhana S, Kaluarachchi T, Billinghurst M, et al. Multimodal emotion recognition with transformer-based self supervised feature fusion[J]. Ieee Access, 2020, 8: 176274-176285.
  11. Russell J A, Mehrabian A. Evidence for a three-factor theory of emotions[J]. Journal of research in Personality, 1977, 11(3): 273-294.
  12. Ekman P E, Davidson R J. The nature of emotion: Fundamental questions[M]. Oxford University Press, 1994.
  13. Huang Y, Yang J, Liu S, et al. Combining facial expressions and electroencephalography to enhance emotion recognition[J]. Future Internet, 2019, 11(5): 105.

 

 

  • 25
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值