多模态融合技术升级!新阶段2大融合模式取得最优性能

本文探讨了传统多模态融合方法的局限性,介绍了大模型技术推动下的新阶段融合模式,如多模态大模型架构和动态融合。重点介绍了两种热门模式的详细方法和代表性论文,以及28篇包含论文和代码的学习资源,为创新研究提供方向。
摘要由CSDN通过智能技术生成

传统的多模态融合方法面临着模态表示不一致、灵活性不足等问题,难以适应日益复杂的实际需求。

而随着大模型等新技术的发展,研究者将这些新技术与传统的多模态融合相结合,提出了新阶段的融合模式,包括多模态大模型时代的新架构、动态多模态融合等。这些新的融合模式和方法不仅提高了模型的性能,也为处理更复杂的现实问题提供了新的思路,是我们做创新发论文的好方向。

本文介绍6种传统模态融合方法,重点介绍2种热门的新阶段融合模式(多模态新架构+动态多模态融合),每种方法都附有代表论文以及相应代码(共28篇),方便同学们学习。

论文和代码需要的同学看文末

1.传统模态融合方法

①在将特征提取并转换到同一特征空间后,利用cross-attention等机制进行特征融合

  • 代表论文:DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

②在编码过程中逐步进行特征融合

  • 代表论文:CEKD:Cross-Modal Edge-Privileged Knowledge Distillation for Semantic Scene Understanding Using Only Thermal Images

③分别对不同模态的特征进行编码提取,然后融合特征图

  • 代表论文:Multi-exposure image fusion via deep perceptual enhancement

④在图像编码前进行特征融合(将RGB图像转换为YCbCr并在Y通道进行融合)

  • 代表论文:Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning

⑤根据不同模态生成对应的策略,并进行策略融合

  • 代表论文:Multi-modal policy fusion for end-to-end autonomous driving

⑥分别对两种模态进行编码,并根据结果进行对比学习

  • 代表论文:Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation

2.新阶段的融合模式

①多模态新架构

进入多模态大模型时代,融合方式基本就是VIT+Only Decoder Transformer的结构,这种结构的核心在于将图像和文本信息通过一个共享的Transformer架构进行处理,以实现多模态信息的融合。

代表论文1:
Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

方法:论文研究了视觉语言预训练(VLP)中跨模态对比学习中假阴性的问题。通过对互信息(MI)优化的角度进行理论分析,论文证明了在存在非可忽略的假阴性情况下,优化InfoNCE损失等价于最大化MI的下界,并提出了一种基于逐步优化的跨模态相似性的对比学习策略,以更准确地优化图像/文本锚点与其负样本之间的MI。

主要内容包括:(1)从MI优化的角度研究假阴性问题;(2)提出了一种基于跨模态相似性的对比学习策略;(3)在四个典型的视觉语言下游任务上验证了该方法的有效性。

创新点:

  • 推导了一个更一般的MI下界,揭示了在存在非可忽略的假负样本时,(部分)假负样本与锚点之间的MI也很重要。

  • 提出了一种基于跨模态相似度调控的全新对比学习策略。作者假设图像和文本之间的MI与它们的语义相似度呈正相关。因此,作者引入了一个对比权重,根据跨模态相似度进行推导,并在训练过程中逐步优化,用于每个负样本作为对比的调节器。这个调节器将引导模型适当地优化负样本的MI,避免了过度减少MI,从而得到一个更具语义结构的表示空间。

代表论文2:
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

方法:本文介绍了一种名为BLIP-2的通用和高效的视觉语言预训练方法。该方法利用了冻结的预训练图像编码器和大型语言模型(LLMs),在视觉语言预训练过程中具有较少的可训练参数。

创新点:

  • BLIP-2是一种通用且高效的预训练策略,通过从现成的冻结预训练图像编码器和大型语言模型中引导视觉语言预训练,从而解决了视觉和语言之间的模态差距问题。

  • BLIP-2通过轻量级的查询Transformer桥接了模态差距,该Transformer在两个阶段进行预训练。第一个阶段从冻结的图像编码器中引导视觉语言表示学习,第二个阶段从冻结的语言模型中引导视觉到语言的生成学习。

②从静态融合到动态融合

以往的融合方法从本质上讲是静态的,也就是以相同的计算处理和融合多模态输入,没有考虑不同多模态数据的不同计算需求。而动态多模态融合能够自适应融合多模态数据并在推理过程中生成数据依赖的前向路径,在计算效率、适用性、决策准确性等方面展现出了强有力的优势。

代表论文1:
Deep Equilibrium Multimodal Fusion

方法:论文提出了一种动态多模态融合架构,能够自适应地模拟从低层到高层的跨模态交互,从而使架构适用于各种多模态任务。该方法能够动态地模拟从低级到高级的模态信息,并在多模态融合中实现了新的最优性能。

创新点:

  • 采用深度均衡(DEQ)方法进行多模态融合,通过寻找动态多模态融合过程的一个固定点来建模特征之间的相关性。

  • 提出了一种新的深度均衡(DEQ)融合方法,通过以自适应和递归的方式对低级别到高级别的特征之间的相关性进行建模,从而充分编码跨模态信息,从而实现高效的多模态学习。

代表论文2:
MM-DFN: MULTIMODAL DYNAMIC FUSION NETWORK FOR EMOTION RECOGNITION IN CONVERSATIONS

方法:本文提出了一种多模态动态融合网络(MM-DFN)来全面理解多模态情感识别任务中的对话背景。该网络设计了一个基于图的动态融合(GDF)模块来融合对话中的多模态特征。GDF模块通过捕捉不同语义空间中的上下文信息的动态来减少冗余并增强模态之间的互补性。

创新点:

  • 提出了一种新颖的多模态动态融合网络(MM-DFN)来充分理解多模态对话环境。该网络设计了一种基于图的动态融合模块,用于在对话中融合多模态上下文特征。通过捕捉不同语义空间中的上下文信息动态变化,降低了冗余性,并增强了不同模态之间的互补性。

  • 进行了大量实验证明了MM-DFN模型的有效性和优越性。在两个公开基准数据集上,MM-DFN模型始终在性能上表现最好。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态28”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

好的,以下是 PostgreSQL 的安装教程: 1. 下载安装包 前往 PostgreSQL 的官方网站 https://www.postgresql.org/download/ 下载适合你操作系统的安装包,选择最版本即可。 2. 安装 PostgreSQL Windows 系统: 双击下载好的安装包,根据提示一步步进行安装。安装过程中可以自定义安装路径、数据目录等选项。安装完成后,会自动创建一个默认的 PostgreSQL 数据库。在安装过程中,可以设定一个超级用户账号,这个账号有着最高权限。 Mac 系统: 可以使用 Homebrew 安装 PostgreSQL,安装命令如下: ``` brew install postgresql ``` 安装完成后,命令行中会显示 PostgreSQL 的相关信息。默认情况下,Homebrew 会自动创建一个数据库用户,用户名为当前系统用户名。 Linux 系统: 在 Ubuntu 系统中,可以使用以下命令安装 PostgreSQL: ``` sudo apt-get update sudo apt-get install postgresql postgresql-contrib ``` 安装完成后,PostgreSQL 服务会自动启动。在 CentOS 等其他发行版的 Linux 系统中,可以使用 yum 或者 dnf 等包管理器安装 PostgreSQL。 3. 配置 PostgreSQL 安装完成后,需要进行一些配置工作,具体步骤如下: 打开 PostgreSQL 安装目录下的 `pg_hba.conf` 文件,找到其中的如下一行: ``` # IPv4 local connections: host all all 127.0.0.1/32 md5 ``` 将其中的 `md5` 改为 `trust`,这样可以允许无密码登录: ``` # IPv4 local connections: host all all 127.0.0.1/32 trust ``` 接着,打开 PostgreSQL 安装目录下的 `postgresql.conf` 文件,找到其中的如下一行: ``` #listen_addresses = 'localhost' ``` 将其注释去掉,并将 `localhost` 改为 `*`,这样可以允许来自任何地址的连接: ``` listen_addresses = '*' ``` 保存配置文件,重启 PostgreSQL 服务。 4. 使用 PostgreSQL 安装和配置完成后,可以使用命令行工具 `psql` 或者图形化的客户端工具(如 pgAdmin)来连接和操作 PostgreSQL 数据库了。 使用 `psql` 连接 PostgreSQL 数据库: ``` psql -h localhost -p 5432 -U postgres ``` 其中,`localhost` 是数据库服务器地址,`5432` 是数据库服务器端口,`postgres` 是数据库超级用户账号。 输入密码后,即可进入 PostgreSQL 数据库的命令行界面。在命令行界面中,可以使用 SQL 命令来创建、查询、修改和删除数据库、表、数据等。 希望我的回答能够帮助到你!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值