多模态融合引爆顶会！CVPR、AAAI、ACL、NeurIPS…统统拿下！

最新推荐文章于 2025-04-12 13:15:11 发布

程序猿李巡天

最新推荐文章于 2025-04-12 13:15:11 发布

阅读量1.4k

点赞数 15

文章标签：人工智能图像处理搜索引擎网络音视频

本文链接：https://blog.csdn.net/m0_59235945/article/details/143492803

版权

2024深度学习发论文&模型涨点之——Multimodal Fusion

多模态融合（Multimodal Fusion）是人工智能领域的一个重要研究方向，它涉及到将来自不同模态（如文本、图像、音频等）的信息整合到一个统一的模型中，以实现更丰富和深入的理解。多模态融合的关键目标是提取有价值的信息和特征，并将这些信息融合在一起，以提高模型的性能和识别效果。

2024年的多模态融合研究也呈现出了一些新的方向，如多模态实体集扩展（MESE）以集成多模态信息表示实体，以及用于跨领域多任务学习的多模态对齐提示（MmAP）等。这些研究进一步扩展了多模态融合的应用范围，并为实现更深层次的理解和更准确的预测提供了可能。

论文精选

论文1：

[ACL] Feature Projection for Improved Text Classification

特征投影以改进文本分类

方法

特征投影：提出了一种新的特征投影方法，将现有特征投影到公共特征的正交空间中，以增强分类的区分度。
特征净化网络（FP-Net）：设计了一个包含两个子网络的模型，C-net用于学习多个类别共享的公共特征，P-net用于学习输入句子或文档的特征向量，并通过正交投影得到更纯净的特征表示。
梯度反转层（GRL）：在C-net中使用GRL来提取多类别共享的、对分类任务区分度不高的公共特征。
正交投影层（OPL）：在P-net中使用OPL将特征向量投影到公共特征的正交方向，以产生更纯净的特征用于分类。

创新点

特征投影：首次提出通过特征向量投影来改善表示学习的技术，通过消除公共特征的干扰，使系统更专注于区分性特征。
特征净化网络（FP-Net）：提出了一个新颖的网络结构，通过两个子网络的协同工作，一方面识别和抑制公共特征，另一方面增强区分性特征。
正交投影层（OPL）：引入了OPL来实现特征向量到分类特定语义空间的映射，这是第一次在文本分类任务中使用正交投影来改善特征表示。
广泛的实验验证：在多个文本分类数据集上进行了广泛的实验，验证了所提方法对于不同深度学习分类模型（如RNN、CNN、Transformer和Bert）的有效性，显著提高了分类准确率。

论文2：

[AAAI] Memory Fusion Network for Multi-View Sequential Learning

用于多视图序列学习的存储融合网络

方法

系统LSTMs（System of LSTMs）：为每个视图分配一个LSTM函数，独立编码每个视图的特定交互。
Delta-memory Attention Network（DMAN）：使用特殊的注意力机制来识别跨视图交互，并通过相关性评分系统突出不同LSTM记忆维度之间的交互。
多视图门控记忆（Multi-view Gated Memory）：存储跨视图信息并随时间更新，作为动态记忆模块学习序列数据中关键的跨视图交互。
预测集成：通过结合视图特定和跨视图信息进行最终的预测。

创新点

多视图序列学习：提出了一种新的神经网络架构MFN，显式考虑了不同视图之间的交互，并能够持续地对这些交互进行时间建模。
Delta-memory Attention Network（DMAN）：引入了一种新颖的注意力机制，通过比较连续时间步的记忆来识别跨视图交互，这种方法可以捕捉到非同时发生的交互。
多视图门控记忆（Multi-view Gated Memory）：提出了一种新的门控记忆单元，它具有比传统LSTM更复杂的门控机制，能够更有效地存储和更新跨视图交互信息。
跨数据集性能提升：在多个公开的多视图序列数据集上进行了广泛的实验，MFN在所有数据集上均超越了现有的最先进模型，为多视图学习方法树立了新的性能标准。

论文3：

[NIPS] Deep Multimodal Multilinear Fusion with High-order Polynomial Pooling

深度多模态多元线性融合与高阶多项式池化

方法

多项式张量池化（PTP）块：通过考虑高阶矩，整合多模态特征，后接张量化全连接层。
张量化全连接层：将PTP块作为构建块，建立一个层次化的多项式融合网络（HPFN），递归传递局部相关性到全局。
层次化多项式融合网络（HPFN）：通过堆叠多个PTP块，实现局部和全局时间-模态模式的相关性建模。

创新点

多项式张量池化（PTP）块：首次提出PTP块，允许高阶非线性模态内和跨模态交互，以捕捉复杂的非线性多模态相关性。
层次化多项式融合网络（HPFN）：建立了一个递归架构，将局部时间-模态相关性有效地传递到全局，实现更细粒度的局部交互捕捉。
表达能力指数增长：通过在多层中堆叠PTP块，HPFN的表达能力随着层数的增加而指数增长，与非常深的卷积算术电路等效。
实验验证：通过在多模态任务上的实验，验证了HPFN的优越性能，达到了最先进的结果。

在这里插入图片描述

论文4：

[CVPR] Cross-modality Person re-identification with Shared-Specific Feature Transfer

跨模态行人重识别与共享-特定特征转移

方法

双流特征提取器：包括模态共享流和模态特定流，用于从输入图像中提取共享和特定特征。
共享-特定转移网络（SSTN）：通过建模不同模态样本之间的亲和性，传递共享和特定特征，以补偿缺失的特定信息并增强共享特征。
补充特征学习策略：包括模态适应、项目对抗学习和重建增强，用于分别学习每个模态的区分性和互补性的共享和特定特征。
端到端训练：整个cm-SSFT算法可以以端到端的方式进行训练。

创新点

跨模态共享-特定特征转移算法（cm-SSFT）：提出一种新的算法，利用模态共享信息和模态特定特征来提升重识别性能。
特征转移方法：通过建模跨模态和模态内亲和性来传递信息，有效利用每个样本的共享和特定信息。
补充学习策略：提出一种新颖的学习策略，提取区分性和互补性的共享和特定特征，进一步提升cm-SSFT的有效性。
显著性能提升：在主流基准数据集SYSU-MM01和RegDB上的实验结果表明，所提出算法显著超越现有技术。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述