【传知代码】MSA+抑郁症模型总结三（论文复现）

亦世凡华、

于 2024-08-12 21:11:43 发布

阅读量311

点赞数 10

分类专栏：传知代码文章标签：人工智能论文分享经验分享机器学习

本文链接：https://blog.csdn.net/qq_53123067/article/details/141107244

版权

传知代码专栏收录该内容

52 篇文章 1 订阅

订阅专栏

在现代心理健康研究中，抑郁症一直是一个备受关注的课题。随着科学的进步，研究人员逐渐认识到，抑郁症的成因远不止单一因素，而是由复杂的生物学、心理学和社会环境因素交织而成的。最近，MSA（综合性综合性模型）在揭示抑郁症机制上展现了惊人的潜力。通过多维度的分析，MSA模型为我们提供了一个全新的视角，让我们能够更深入地理解抑郁症的根源、影响以及可能的干预措施。在这篇文章中，我们将深入探讨MSA模型如何重新定义我们对抑郁症的认识，并展示它在临床实践中的潜在应用。

本文所涉及所有资源均在地址可获取

概述

随着社交网络的不断发展，近年来出现了多模态数据的热潮。越来越多的用户采用媒体形式的组合（例如文本加图像、文本加歌曲、文本加视频等）。来表达他们的态度和情绪。多模态情感分析（MSA）是从多模态信息中提取情感元素进行情感预测的一个热门研究课题。传统的文本情感分析依赖于词、短语以及它们之间的语义关系，不足以识别复杂的情感信息。随着面部表情和语调的加入，多模态信息（视觉、听觉和转录文本）提供了更生动的描述，并传达了更准确和丰富的情感信息。先前的研究证实，不同模式之间通常存在潜在的相互作用。下图显示了MSA的优势。比如，有些句子的情绪是模棱两可的，不同的情境下有各种各样的情绪。在引入相应的音频信息之后，可以更准确地预测情绪的极性。这些相互作用的有效建模仍然是一个开放的挑战：

同时，竞争激烈的市场和保持竞争领先的需要对组织在生产力、创新等方面提出了更多的要求。繁重的工作量、更紧迫的期限、不切实际的目标、更长的工作时间、工作不安全感和人际冲突等导致员工之间的紧张关系。这反过来又为组织内的员工创造了一个紧张的工作环境。超过一定限度的压力会对员工的工作效率、士气和积极性产生负面影响。它还导致各种生理和心理问题。长期的压力会导致失眠、抑郁和心脏病。最近的研究人员发现长期的压力和癌症之间存在正相关。国际劳工组织在2019年宣布，“压力，过长的工作时间和疾病，导致每年近280万工人死亡，另外3. 74亿人因工作受伤或生病”。早期诊断和治疗对于减少压力对员工健康的长期影响和改善工作环境条件至关重要。检测抑郁症的常规方法是由生理学家进行问卷访谈。但这种方法是定性的、耗时的和不私密的。没有保证员工提供真实的答案，很多时候这种方法并没有达到初步筛选的目标。

本篇文章采用情感计算经典论文模型，他是ACMMM 2020的一篇多模态情感计算的论文 “MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis”，其中提出的模型是MISA，此外，原创部分为加入了抑郁症数据集以实现抑郁症检测任务，以及在SIMS数据集和SIMV2数据集上进行实验；值得注意的是，我们还加入了幽默检测的任务：地址：

多模态情感分析和抑郁症检测是一个活跃的研究领域，它利用多模态信号对用户生成的视频进行情感理解和抑郁症程度判断。解决这一问题的主要方法是发展先进的模态融合技术。然而，信号的异质性造成了分布模式的差距，构成了重大挑战。在本文中，我们的目标是学习有效的模态表示，以帮助融合的过程，其主要贡献如下：

提出MISA，一个简单而灵活的多模态学习框架，强调多模态表示学习作为多模态融合的前体，MISA学习modality-invariant和modality-specific表示，以提供多模态数据的全面和分解视图，从而帮助融合预测情感状态，MSA任务的实验证明了MISA的强大功能，其中学习的表示帮助简单的融合策略超越复杂的最先进的模型。

核心逻辑

如下图所示，MISA的功能可以分为两个主要阶段：模态表征学习和模态融合：

首先，对于每个模态 m∈{l，v，a}m∈{l，v，a}，把它的话语序列 Um∈RTm×dmUm∈RTm×dm映射到一个固定大小的向量um∈Rdhum∈Rdh上。使用一个堆叠LSTM，它的端态隐藏表示与一个完全连接的密集层相结合，给出了umum：um=sLSTM(Um;θmlstm)um=sLSTM(Um;θmlstm)。

现在将每个话语向量 umum投射到两个不同的表示。第一个是 modality-invariant组件，它学习一个具有分布相似性约束的公共子空间共享表示。该约束有助于最小化异质性间隙–这是多模融合的理想特性。第二个是特定于模态的组件，它捕获了该模态的独特特征。通过这篇论文，我们论证了模态不变和模态特定表示的存在为有效融合提供了一个整体的视角。学习这些表示法是该工作的首要目标，以下为部分代码展示：

if not self.config.use_cmd_sim:
            # discriminator
            reversed_shared_code_t = ReverseLayerF.apply(self.utt_shared_t, self.config.reverse_grad_weight)
            reversed_shared_code_v = ReverseLayerF.apply(self.utt_shared_v, self.config.reverse_grad_weight)
            reversed_shared_code_a = ReverseLayerF.apply(self.utt_shared_a, self.config.reverse_grad_weight)

            self.domain_label_t = self.discriminator(reversed_shared_code_t)
            self.domain_label_v = self.discriminator(reversed_shared_code_v)
            self.domain_label_a = self.discriminator(reversed_shared_code_a)
        else:
            self.domain_label_t = None
            self.domain_label_v = None
            self.domain_label_a = None


        self.shared_or_private_p_t = self.sp_discriminator(self.utt_private_t)
        self.shared_or_private_p_v = self.sp_discriminator(self.utt_private_v)
        self.shared_or_private_p_a = self.sp_discriminator(self.utt_private_a)
        self.shared_or_private_s = self.sp_discriminator( (self.utt_shared_t + self.utt_shared_v + self.utt_shared_a)/3.0 )
        
        # For reconstruction
        self.reconstruct()

在将模态投影到它们各自的表示中之后，我们将它们融合到一个联合向量中，用于下游预测。我们设计了一个简单的融合机制，首先执行自注意-基于Transformer，然后是所有六个变换的模态向量的级联，首先，我们堆叠六个模态表示矩阵。然后，我们在这些表示上执行多头自注意，以使每个向量都知道其他跨模态（和跨子空间）表示。这样做允许每个表征从同伴表征中诱导潜在的信息，这些信息对总体情感取向是协同的。这种跨模态匹配在最近的跨模态学习方法中已经非常突出：

# Projecting to same sized space
self.utt_t_orig = utterance_t = self.project_t(utterance_t)
self.utt_v_orig = utterance_v = self.project_v(utterance_v)
self.utt_a_orig = utterance_a = self.project_a(utterance_a)
self.utt_private_t = self.private_t(utterance_t)
self.utt_private_v = self.private_v(utterance_v)
self.utt_private_a = self.private_a(utterance_a)
self.utt_shared_t = self.shared(utterance_t)
self.utt_shared_v = self.shared(utterance_v)
self.utt_shared_a = self.shared(utterance_a)

本次使用的数据集如下所示：

CMU-MOSI: CMU-MOSI数据集是MSA研究中流行的基准数据集。该数据集是YouTube独白的集合，演讲者在其中表达他们对电影等主题的看法。MOSI共有93个视频，跨越89个远距离扬声器，包含2198个主观话语视频片段。这些话语被手动注释为[-3，3]之间的连续意见评分，其中-3/+3表示强烈的消极/积极情绪。

CMU-MOSEI: CMU-MOSEI数据集是对MOSI的改进，具有更多的话语数量，样本，扬声器和主题的更大多样性。该数据集包含23453个带注释的视频片段（话语），来自5000个视频，1000个不同的扬声器和250个不同的主题。

AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行，以排除人为干扰。与上述两个数据集不同的是，AVEC2019中的每种模态都提供了几种不同的特征。例如，声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中，发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此，为了简单和高效的目的，我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间[0，24]内的PHQ-8评分进行注释，PHQ-8评分越大，抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。

SIMS/SIMSV2: CH-SIMS数据集[35]是一个中文多模态情感分析数据集，为每种模态提供了详细的标注。该数据集包括2281个精选视频片段，这些片段来自各种电影、电视剧和综艺节目，每个样本都被赋予了情感分数，范围从-1（极度负面）到1（极度正面）

UR_FUNNY: 对于MHD，我们考虑最近提出的UR_FUNNY数据集。与情绪类似，幽默的产生和感知也是通过多通道进行的。因此，这个数据集提供了多模态的话语，作为从TED演讲中采样的笑点。它还为每个目标话语提供相关的上下文，并确保说话者和主题的多样性。每个目标话语被标记为幽默/非幽默实例的二元标签。

复现过程

在准备好数据集并调试代码后，进行下面的步骤，附件已经调通并修改，可直接正常运行，下载多模态情感分析集成包：

pip install MMSA

进行训练：

$ python -m MMSA -d mosi/dosei/avec -m mmim -s 1111 -s 1112

训练过程和最终结果如下所示：

可以看到MISA模型适用于分析社交媒体平台上用户的多模态数据，包括文本、图像和音频，从而深入理解用户的情感倾向、态度和情绪变化。例如，可以用于监测社交媒体上的舆情、分析用户对特定事件或产品的反应，其项目特点如下所示：

1）多模态融合：MISA模型能够有效整合文本、图像和音频等多种数据源，充分利用不同模态之间的关联性和信息丰富度，提升情感分析的全面性和准确性。

2）情感感知和表达建模：通过先进的深度学习技术，MISA模型能够深入学习和模拟情感感知与表达过程，实现对复杂情感信息的准确捕捉和高效表示。

3）自适应学习和个性化：MISA模型具备自适应学习能力，可以根据具体任务和用户需求调整情感建模策略，实现个性化的情感分析和反馈。

4）跨领域应用能力：由于其多模态分析的通用性和灵活性，MISA模型不仅适用于社交媒体分析和智能健康监测，还能应用于广告推荐、产品评价和人机交互等多个领域。

综上所述，MISA模型在多模态情感分析和智能应用领域展现出广泛的适用性和高效的技术特点，为实际应用场景提供了强大的分析和决策支持能力。

写在最后

在探索MSA+模型对抑郁症的深刻见解的旅程中，我们不仅揭示了疾病的复杂性，还找到了应对和治疗的崭新思路。MSA+模型通过将生物、心理和社会因素融入一个综合框架，挑战了传统单一因素的理解方式，为我们描绘了一幅更为全面的抑郁症图景。它让我们意识到，抑郁症不仅仅是神经化学的失衡，而是一个多层次、多维度的互动过程。

通过MSA+模型，我们不仅能够更准确地识别抑郁症的风险因素，还能在个体化治疗方案上取得突破。其创新性的整合方式，为我们提供了一种全新的思考路径，激发了对未来研究和治疗的无限可能。这种综合视角不仅有助于我们更好地理解抑郁症的多样性，还推动了个体化和精准医学的发展。

总之，MSA+模型的应用标志着心理健康领域的一个重要进步。它不仅为我们提供了新的研究工具，也为临床实践注入了新的希望。未来，我们有理由相信，通过不断探索和应用这一模型，我们将能够在抑郁症的预防、诊断和治疗上取得更大的突破，从而为那些受困于抑郁症的患者带来真正的改变与希望。

详细复现过程的项目源码、数据和预训练好的模型可从该文章下方附件获取。

亦世凡华、

关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
【传知代码】MSA+抑郁症模型总结三（论文复现）

随着社交网络的不断发展，近年来出现了多模态数据的热潮。越来越多的用户采用媒体形式的组合（例如文本加图像、文本加歌曲、文本加视频等）。来表达他们的态度和情绪。多模态情感分析（MSA）是从多模态信息中提取情感元素进行情感预测的一个热门研究课题。传统的文本情感分析依赖于词、短语以及它们之间的语义关系，不足以识别复杂的情感信息。随着面部表情和语调的加入，多模态信息（视觉、听觉和转录文本）提供了更生动的描述，并传达了更准确和丰富的情感信息。先前的研究证实，不同模式之间通常存在潜在的相互作用。下图显示了MSA的优势。
复制链接

扫一扫