一颗2021-CSDN博客

原创关于MAG-Bert复现遇到的问题及解决方案

3.pretrain-bert-uncased 加载不了。2.transformer版本。

2023-12-02 00:04:59 157 1

原创关于SELF-MM模型复现出现的问题解决步骤

多模态情感识别SELF-MM复现问题解决

2023-11-16 21:46:38 462 13

原创 EMNLP(2021) Which is Making the Contribution: Modulating Unimodal and Cross-modal Dynamics for MSA

我们提出了一种新的MSA框架调制模型用于多模态情感分析(M3SA)，以识别模态的贡献，减少噪声信息的影响，从而更好地学习单模态和跨模态动态。具体来说，调制损耗被设计为基于每个话语中单个模态的置信度来调制损耗贡献，从而探索每个单峰网络的最优更新解决方案。此外，针对大多数现有的工作不能明确地过滤掉噪声信息，我们设计了一个模态过滤模块来识别和过滤模态噪声，以学习正确的跨模态嵌入。在公开数据集上进行的大量实验表明，我们的方法达到了最先进的性能

2023-09-24 20:40:46 163

原创（2023 CICAI）Text-oriented Modality Reinforcement Network for MSA from Unaligned Multimodal Sequences

文章贡献：提出了TMRN，这是一种专注于文本模态在MSA任务中的主导地位的方法。TMRN以文本模态为主线，与其他两种模态相互作用和强化，以获得低冗余和去噪的特征表示。提出了一个以文本为中心的跨模态注意(TCCA)模块和一个文本门控的自注意(TGSA)模块来挖掘模态间和模态内的上下文关系。在两个人类多模态语言基准MOSI和MOSEI上进行了一组全面的实验。实验表明，我们的方法在这两个数据集上达到了最先进的方法。

2023-09-18 11:39:20 180

原创（2021 ICMI）Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis

多模态情感分析旨在提取和整合从多模态中收集到的语义信息，以识别多模态数据中所表达的情感和情绪。该研究领域的主要关注点在于开发一种特殊的融合方案，可以从各种模式中提取和整合关键信息。然而，以前的工作受到缺乏利用独立性和相关性的动态模式达到最高绩效的限制。为了缓解这一问题，我们提出了双双峰融合网络(BBFN)，这是一种新型的端到端网络，对两两模态表示进行融合(相关增量)和分离(差异增量)。这两个部分同时训练，以模拟它们之间的战斗。由于已知模态之间的信息不平衡，该模型采用两个双峰对作为输入。

2023-09-17 11:51:22 353

原创关于多模态情感识别MULT模型复现遇到的问题

mult模型，跨模态注意力

2023-09-14 13:15:16 255 1

原创（2023ArXiv）Exchanging-based Multimodal Fusion with Transformer

本文研究了多模态融合问题。最近提出了基于交换的视觉融合方法，其目的是将从一种模式学习到的嵌入交换到另一种模式。然而，它们大多将多模态的输入投影到不同的低维空间中，无法应用于序列输入数据。为了解决这些问题，本文提出了一种基于Transformer的文本视觉融合的基于交换的多模态融合模型MuSE。我们首先使用两个编码器分别将多模态输入映射到不同的低维空间。然后，我们使用两个解码器来正则化嵌入并将它们拉入同一空间。两个解码器分别通过图像字幕任务和文本到图像生成任务捕获文本和图像之间的相关性。

2023-09-07 12:06:00 333 3

原创 (2023 ArXiv)Cross-Attention is Not Enough: Incongruity-Aware Hierarchical MSA and ER

融合多种模式的情感计算任务已被证明是有效的性能改进。然而，多模态融合是如何工作的还没有被很好地理解，它在现实世界中的使用通常会导致大的模型尺寸。在此工作中，在情绪和情绪分析方面，我们首先分析了在跨模态注意中，一种模态中的显著情感信息如何受到另一种模态的影响。我们发现，由于跨模式的注意，在潜在水平上存在着多模式不一致。基于这一发现，我们提出了一种基于分层跨模态门控(HCT-MG)的轻量级模型，该模型根据对目标任务的贡献确定主模态，然后分层地加入辅助模态，以减轻模态间不一致和减少信息冗余。

2023-08-29 10:56:56 217 5

转载（2019ACL）Multimodal Transformer for Unaligned Multimodal Language Sequences

多模态情感识别跨模态注意力

2023-08-26 10:38:09 107

原创（2023）Shared and Private Information Learning in MSA with Deep Modal Alignment and Self-supervised..

为多模态情感分析任务设计一种有效的表征学习方法是一个重要的研究方向。挑战在于在完整的模态表示中学习共享和私有信息，这在统一的多模态标签和原始特征融合方法中是困难的。在这项工作中，我们提出了一个基于协方差矩阵的深度模态共享信息学习模块来捕获模态之间的共享信息。此外，我们使用基于自监督学习策略的标签生成模块来捕获模态的私有信息。我们的模块是即插即用的多模态任务，通过改变参数化，可以调整模式之间的信息交换关系，学习指定模式之间的私有或共享信息。

2023-08-24 14:15:07 176 1

原创 2021AAAI）Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for MSA

表征学习是多模态学习中一个重要而富有挑战性的课题。有效的情态表达应包含一致性和差异性两部分特征。由于统一的多模态标注，现有方法在捕获差异化信息时受到限制。然而，额外的单模态注释需要耗费大量的时间和人力。在本文中，我们设计了一个基于自监督学习策略的标签生成模块来获取独立的单峰监督。然后，对多模态和单模态任务进行联合训练，分别学习一致性和差异性。此外，在训练阶段，我们设计了一个权重调整策略来平衡不同子任务之间的学习进度。即引导子任务关注情态监督差异较大的样本。

2023-08-20 09:36:18 333 1

原创（2023）ConKI: Contrastive Knowledge Injection for Multimodal Sentiment Analysis

多模态情感分析利用多模态信号来检测说话人的情感。以前的方法主要是基于从预训练模型中获得的一般知识进行多模态融合和表示学习，而忽略了领域特定知识的影响。在本文中，我们提出了用于多模态情感分析的对比知识注入(ConKI)，其中每种模态的特定知识表示可以通过基于适配器架构的知识注入与一般知识表示一起学习。此外，ConKI使用在每个单一模态中的知识类型之间、每个样本中的跨模态之间以及跨样本之间执行的分层对比学习过程，以促进所提出的表征的有效学习，从而改进多模态情绪预测。

2023-08-19 16:43:21 424

原创 EFFMULTI: EFFICIENTLY MODELING COMPLEX MULTIMODAL INTERACTIONS FOR EMOTION ANALYSIS

人类善于从多模态信号中解读对话者的情绪，包括口语、同步语音和面部表情。从多模态信号的复杂相互作用中有效地解码情绪仍然是一个挑战。在本文中，我们设计了三种多模态潜在表征，包括完整的三模态整合表征、模态共享表征和三模态个体表征，以细化情感分析过程，并从不同的角度捕捉复杂的多模态交互。然后，提出了一种模态语义层次融合方法，将这些表征合理地融合为一个综合的交互表征。实验结果表明，我们的EffMulti优于最先进的方法。出色的性能得益于其设计良好的框架，易于实现，计算复杂性较低，可训练参数较少

2023-07-28 10:15:53 59 2

原创 MMSA多模态情感识别仓库复现遇到的问题

3.API接口调用，使用代码的时候自己创建一个model-save和rusult-save文件，config对应参数改一下路径，跑完可得到结果。1.run.py函数运行报错，可能版本原因将原来285行的 dict｜str 改为str。2.需要自己下载数据创建一个文件夹，只需要下载各个数据集的.pkl文件即可。5.三个多模态任务模型会报错，原因：局部变量在声明前调用，还不知道怎么改。4.本次仅使用了ch-sims数据集，由该论文来这复现。

2023-04-28 11:30:17 718 5

原创多模态情感识别应用论文阅读笔记

多模态情感识别阅读笔记

2023-02-27 18:32:28 1063 1

原创《论文阅读笔记》VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix

现有的视觉语言预训练(VLP)方法主要依赖于成对的图像-文本数据集，这些数据集要么由大量的人工标注，要么从互联网上爬取，然后使用复杂的数据清理技术。为了减少对对齐良好的图像文本对的依赖，有希望直接利用大规模的纯文本和纯图像语料库。本文提出了一种数据增强方法，即跨模态CutMix (CMC)，用于未配对VLP中的隐式跨模态对齐学习。具体而言，CMC将自然句子从文本视图转换为多模态视图，其中句子中基于视觉的单词被随机替换为具有相似语义的不同图像补丁。拟议的CMC有几个吸引人的特点。首先，它增强了数据的多

2023-01-14 01:26:17 390 1

转载《论文阅读笔记》Attention Bottlenecks for Multimodal Fusion

人们对世界的认知，对信息的处理是多模态的，而大多的机器学习模型却是仅针对单模态的。同时，处理多模态问题的模型，大多还是使用late-stage的fusion方法，先分别处理单个模态数据之后fusion为多模态结果。本文提出一种基于transformer的多层fusion方法，借助于“fusion bottlenecks”。本文让不同模态的信息穿过许多小的bottlenecks，迫使模型collate和share不同模态中最重要的信息。作者发现通过这种方式，模型的fusion性能更好，且计算消耗降低。本文做了

2023-01-07 20:38:41 405

原创 Coca：对比字幕是图像-文本基础模型

COCA：对比字幕是图像-文本基础模型

2022-12-24 15:35:22 507

原创 UniT：多模态多任务模型

本文的目标是建立一个可以应用在独立视觉任务或者独立文本任务的统一基础模型。从BERT \text{BERT}BERT和ViT \text{ViT}ViT出发，作者设计了一个统一的Transformer \text{Transformer}Transformer，其由模态相关的tokenizer、一个共享Transformer \text{Transformer}Transformer编码器和任务相关的输出头。为了在非成对的图像和文本上预训练提出的模型，作者提出了两个新颖的技术：(i) 单独训练BERT \t

2022-11-10 19:07:26 1070

原创《BLIP》-用更干净更多样的数据进行多模态预训练，性能超越CLIP！

视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。但是，大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外，通过使用从web收集的嘈杂的图像-文本对来扩展数据集，在很大程度上实现了性能改进，但这是监督的次优来源。在本文中，作者提出了BLIP，这是一个新的VLP框架，可以灵活地转换到视觉语言理解和生成任务。BLIP通过引导字幕有效地利用了嘈杂的web数据，其中字幕器（captioner）生成合成字幕，而过滤器（ﬁlter）则删除了嘈杂的字幕。作者在广泛的视觉语言任务上获得了最

2022-10-23 21:40:05 1288

qq_52679708的博客