【传知代码】记忆注意力用于多模态情感计算（论文复现）

亦世凡华、

已于 2024-09-21 10:13:48 修改

阅读量956

点赞数 31

分类专栏：传知代码文章标签：机器学习论文分享经验分享人工智能

于 2024-08-11 12:39:07 首次发布

本文链接：https://blog.csdn.net/qq_53123067/article/details/141103299

版权

传知代码专栏收录该内容

60 篇文章

订阅专栏

在当今迅速发展的人工智能领域，多模态情感计算正成为研究的前沿阵地。如何让机器不仅识别单一情感信号，而是能够综合多种感官信息，准确捕捉复杂的情感状态，是一项艰巨但充满潜力的挑战。就在这个背景下，记忆注意力机制应运而生，为解决这一难题提供了全新的视角。

概述

近年来，社交媒体的快速扩张推动了用户生成内容的大幅增加，特别是视频。跨不同模态的自动情感分析已成为旨在增强人机交互的关键研究领域。情感分析最初专注于提取和分析通过文本传达的情感。然而，随着计算能力的提高和视听通信的兴起，多模态情感分析（MSA）已经出现。这种方法集成了文本，音频和视觉输入，以加深对人类情感的理解。MSA在教育、客户反馈分析、心理健康监测和个性化广告等多个领域都有应用，显著增强了我们在各种沟通形式中解释和应对情感线索的能力。多模态情感分析（MSA）试图整合来自视觉，听觉和文本来源的情感线索来预测说话者的情感状态或倾向。然而，这些模式的情绪信号可能会有微妙的变化。下图示出了MSA的好处，展示了添加视觉和音频信息可以提高在歧义句和不同上下文中情感极性预测的准确性：

此外，由于现如今大多数的情感计算数据集都是基于英文语言开发的，所以我加入了中文数据集（SIMS, SIMSv2）应用在模型中，以开发适用于国人的情感计算分析模型，在未来，我也计划加入更多小众数据集，以便检测更隐匿的情感，如嫉妒、嘲讽等，使得AI可以更好的服务于社会。

本文在提出了两个新的模块，文本增强和记忆模块，应用在多模态情感计算中；这篇文章对两个模块进行讲解和手把手复现教学，解决当下热门的多模态情感计算问题，并展示在MOSI和MOSEI两个数据集上的效果。

随着多模态数据量的迅速增加，多模态情感分析（MSA）越来越受到关注。该方法通过整合不同数据模态间的信息，提高了情感极性提取的准确性，从而实现了信息的全面融合，提高了情感分析的精度。然而，当前的深度模型往往忽视了全局记忆信息，无法有效地辅助情感分析，因此我将介绍一种新的记忆注意力模块；此外现如今的研究表明，文本模态相对于其他模态拥有更丰富和准确的情感信息，因此，我提出了一个新的文本增强模块。

核心逻辑

多模态情感分析是指从视频片段中的多个人体信号中判断人物的情感状态。对于视频片段XX，它通常由三个部分组成，包括 tt（文本）、aa（声学）和 vv（视觉），它们是由二维张量 Xt={Xm1,Xm2,...,XmLm},m∈{t,a,v}Xt={Xm1,Xm2,...,XmLm},m∈{t,a,v} 表示。𝐿𝑚Lm表示模态m的序列长度,xti,xai,xvixti,xai,xvi 表示每一帧视频、音频和第ii 个字。对于视觉序列，我们使用Facet或Pyfeat获取其原始特征。对于文本序列，我们使用来自预先训练的语言模型的标记器来获得其对应的标记序列 It∈RLtIt∈RLt。另一方面，声学序列通过COVAREP处理以获得原始特征。其中，Sa∈RLa×daSa∈RLa×da 和 Sv∈RLv×dvSv∈RLv×dv表示原始的声学和视觉特征序列。在这里，dvdv 和 dada分别是视觉和声学向量维度。具体来说，受CENet的启发，我们采用kmeans算法将视觉和声学数据的真实的向量序列转换为索引，建立不同的“声学词汇”和“视觉词汇”，以减轻异构模态之间的初始分布差异。随后，我们使用Im={lm0,lm1,...,lmLm−1}Im={lm0,lm1,...,lmLm−1}表示模态m∈{a,v}m∈{a,v}：

记忆模块：在多模态情感计算中起着关键作用，它允许模型通过注意机制根据查询动态地访问和整合记忆中的信息，从而增强特征的表达能力，使模型能够更准确地理解和捕捉复杂的情感内容。此外，EM可以存储和检索多模态数据中的关键信息，帮助模型减少噪声或不完整数据的不确定性，并提高情感分析任务的准确性和效率，并且通过动态更新和学习如何整合不同模态数据之间的关系，还使模型能够在训练后通过推广到以前看不见的数据来表现良好，保持高效和准确。同时，EM模块应用于所有三种模式（文本、视觉和声学）：

首先初始化一个可学习的记忆矩阵Et∈Rde×dvEt∈Rde×dv，其中 dede 表示记忆矩阵的维数，它可以根据模型的训练过程动态地更新参数，用于存储和检索模型的关键信息。之后，我们将对输入的视觉特征的查询 QvQv、键 KvKv 和值 VvVv进行线性更改，以保留输入维度；Qv=Linear(dv)∈RB×dvQv=Linear(dv)∈RB×dvKv,Vv=Linear(de,dv)∈Rde×dvKv,Vv=Linear(de,dv)∈Rde×dv然后，在我们转移特征维度之后，我们可以使用Q和K计算注意力得分。ATT_Sv=Qv⋅kv⊤dvATT_Sv=dvQv⋅kv⊤，其中，ATT_SvATT_Sv表示注意力得分，我们使用SoftmaxSoftmax函数来获得注意力权重，并结合 VV进行加权求和，得到最终结果，ATT_Wv=softmax(ATT_S)ATT_Wv=softmax(ATT_S)Sum_Wv=ATT_Wv⋅VvSum_Wv=ATT_Wv⋅Vv

在这个阶段，我们拥有包含关键记忆信息的特征，用于后续的特征交互，下面是该模块的代码实现

class ExternalMemory(nn.Module):
    def __init__(self, text_dim, mem_size):
        super(ExternalMemory, self).__init__()
        self.text_dim = text_dim
        self.mem_size = mem_size
        
        # 外部记忆矩阵
        self.memory = nn.Parameter(torch.randn(mem_size, text_dim))
        
        # Linear transformations
        self.query_transform = nn.Linear(text_dim, text_dim)
        self.key_transform = nn.Linear(text_dim, text_dim)
        self.value_transform = nn.Linear(text_dim, text_dim)
        
    def forward(self, query):
        # 将输入的查询向量query进行线性变换，得到变换后的查询向量。这个变换的目的是将查询向量调整到与记忆矩阵相同的维度，以便进行后续的注意力计算。
        query = self.query_transform(query)  # (batch_size, text_dim)
        # 使用self.key_transform(self.memory)和self.value_transform(self.memory)分别对外部记忆矩阵进行键和值的线性变换，
        # 得到变换后的键矩阵和值矩阵。这些变换将外部记忆中的每个条目映射到与查询向量相同的空间。
        key = self.key_transform(self.memory)  # (mem_size, text_dim)
        value = self.value_transform(self.memory)  # (mem_size, text_dim)
        
        # 通过矩阵乘法torch.matmul(query, key.t())计算查询向量与每个键之间的点积注意力分数。
        # 这里使用了缩放点积注意力机制，通过除以math.sqrt(self.text_dim)来缩放注意力分数，其中self.text_dim是查询和键的维度大小
        scores = torch.matmul(query, key.t()) / math.sqrt(self.text_dim)  # (batch_size, mem_size)

        # 对注意力分数应用softmax函数F.softmax(scores, dim=-1)，得到注意力权重，表示每个外部记忆条目对查询的重要性。
        attention_weights = F.softmax(scores, dim=-1)  # (batch_size, mem_size)
        
        # 使用注意力权重对值矩阵进行加权求和，计算加权平均值。weighted_sum表示基于注意力机制加权后的记忆信息.
        weighted_sum = torch.matmul(attention_weights.unsqueeze(1), value.unsqueeze(0))  # (batch_size, 1, text_dim)
        weighted_sum = weighted_sum.squeeze(1)  # (batch_size, text_dim)
        
        return weighted_sum

文本增强模块：模块的核心组件是跨模态嵌入单元。该单元利用跨模态注意力机制捕捉长程非文本情感信息，并生成基于文本的非语言嵌入。嵌入层的参数是可学习的，用于将经过特征转换策略处理后的非文本索引向量映射到高维空间，进而生成文本模态对非文本模态的注意力权重矩阵。换句话说，这一单元通过复杂的神经网络结构，有效地整合了不同模态之间的信息交互，从而提升了情感分析任务的多模态处理能力。

训练开始阶段，由于语言表征和非语言表征处于不同的特征空间，它们之间的相关性通常较低。因此，注意力权重矩阵中的元素可能较小。为了更有效地学习模型参数，研究者在应用 softmax 函数之前使用超参数来缩放这些注意力权重矩阵。

基于注意力权重矩阵，可以生成基于文本的非语言向量。将基于文本的声学嵌入和基于文本的视觉嵌入结合起来，形成非语言增强嵌入。最后，通过整合非语言增强嵌入来更新文本的表示。因此，该模块的提出旨在为文本提供非语言上下文信息，通过增加非语言增强嵌入来调整文本表示，使其在语义上更加准确和丰富。

复现过程

在准备好数据集并调试代码后，进行下面的步骤，附件已经调通并修改，可直接正常运行：

1）数据集准备：下载MOSI和MOSEI数据集已提取好的特征文件(.pkl)。把它放在"./dataset”目录。

2）下载预训练语言模型：下载SentiLARE语言模型文件，然后将它们放入"/pretrained-model / sentilare_model”目录。

3）下载需要的包：pip install -r requirements.txt

训练与最终结果的内容如下所示：

模型适用于多模态情感分析场景，特别是在需要同时处理文本、声音和视觉信息的任务中表现突出。以下是模型的项目特点和适用场景总结：

1）社交媒体监控与分析：模型能够有效地从社交媒体上的多模态数据中提取情感信息，帮助分析用户在言语、音频和视频内容中的情感表达，用于品牌监控、舆情分析等。

2）视频内容理解：在视频内容分析中，可以同时处理视频中的语言文本、音频和视觉信息，提升对视频内容情感和情绪的理解能力，适用于视频推荐系统、内容审核等应用。

3）电影和电视节目评价：通过结合电影或电视节目中的对话文本、声音和场景图像，可以更全面地分析观众对作品的情感反应，用于市场调研、口碑分析等。

4）心理健康监测与干预：模型的能力使其在心理健康领域具有潜在应用，例如通过分析患者的语音、文本和面部表情数据来识别抑郁症或其他情感健康问题的迹象，为个性化的干预和治疗提供支持。

1）多模态信息融合：采用记忆注意力机制，能够有效地整合文本、声音和视觉信息，提升情感分析的准确性和丰富性。

2）自适应学习策略：模型内部使用超参数来调节注意力权重矩阵，从而在初始训练阶段优化不同模态信息之间的关联性，提升模型性能和参数学习效率。

3）非语言信息增强：模块引入了非语言增强嵌入和记忆模块，通过结合基于文本的声学和视觉嵌入来丰富和调整文本的语义表示，提高文本表达的准确性和情感丰富度。

4）应用领域广泛：不仅适用于情感分析，CENet还可扩展到其他需要综合多模态信息的任务，如智能会话系统、娱乐内容推荐和情感驱动的虚拟助理等领域。

综上所述，我们的模型以其能够处理多种模态信息并提升情感分析精度的特性，在多个现实世界的应用场景中展现了广泛的潜力和价值。

写在最后

综上所述，记忆注意力机制为多模态情感计算领域带来了令人兴奋的突破。通过有效地整合和管理来自不同感官通道的信息，记忆注意力不仅提升了情感分析的精准度，也赋予了系统更高的灵活性和智能化水平。它的引入使得情感计算系统能够更加深入地理解和响应复杂的人类情感，从而在智能交互、情感支持和用户体验等多个领域展现出广泛的应用潜力。

尽管我们已取得了显著的进展，但仍然面临许多挑战，如如何优化记忆机制以应对动态变化的情感信息，以及如何在处理大量数据时保持系统的高效性和稳定性。未来的研究将继续致力于解决这些问题，推动记忆注意力机制向更高效、更智能的方向发展。随着技术的不断成熟，我们有理由相信，记忆注意力将为多模态情感计算带来更多创新的应用场景，进一步深化人机情感交互的边界。

展望未来，记忆注意力机制不仅是情感计算的一个技术亮点，更是智能系统进入更加人性化时代的重要一步。它不仅让机器变得更加“懂”人，更为我们开启了探索智能情感世界的新篇章。让我们共同期待，这一前沿技术如何继续塑造未来，带来更多令人惊叹的创新和突破。

详细复现过程的项目源码、数据和预训练好的模型可地址获取。