多模态才是大模型当下的趋势！论文分享附idea

最新推荐文章于 2025-05-26 16:38:55 发布

AI科技探寻

最新推荐文章于 2025-05-26 16:38:55 发布

阅读量943

点赞数 22

文章标签：聚类 transformer 数据挖掘人工智能机器学习

本文链接：https://blog.csdn.net/d22800/article/details/145770131

版权

多模态对齐是多模态学习中的一个核心概念，它涉及到如何在不同的数据模态之间发现和建立对应关系。这种对应关系可以是时间维度的（如视频中的画面与声音的时间同步），也可以是空间维度的（如图像中的区域与文本描述的对应）。对齐技术的目标是使不同模态的信息能够相互补充和增强，从而提高整体的学习效果。

今天就这两种技术整理出了13篇论文+开源代码，以下是精选部分论文

更多论文料可以关注：AI科技探寻，发送：111 领取更多[论文+开源码】

论文1

Multimodal Knowledge Alignment with Reinforcement Learning

多模态知识对齐与强化学习

方法：

ESPER模型：提出了ESPER（ExtraSensory PErception with Reinforcement learning），一个将语言模型扩展到多模态输入（如图像和音频描述）的零样本模型。
多模态提示调整：结合了多模态提示调整和强化学习奖励优化的见解，使用预训练的语言模型（如GPT-2）并训练少量适配器参数以将视觉特征映射到语言模型的词汇空间。
强化学习（RL）：在训练期间，首先根据视觉特征请求模型完成，然后使用近端策略优化（PPO）更新轻量级视觉到文本转换的参数，以最大化由CLIP计算的相似度得分。

创新点：

无监督对齐：ESPER通过仅依赖于CLIP的余弦相似度来优化奖励，无需额外的显式配对（图像，描述）数据，实现了多模态输入与语言模型生成的对齐。
零样本泛化能力：由于语言模型参数保持不变，模型保持了零样本泛化的能力，实验表明ESPER在多种零样本任务上超越了基线和先前的工作。
性能提升：在COCO未配对描述任务中，ESPER相比于先前最先进的方法在CIDEr上有14.6点的改进，并且在推理速度上比基于每个令牌梯度优化的部分解码方法快102倍。
新基准测试：ESPER在一个新的基准测试集ESP数据集上展现了强大的零样本适应性，该数据集测试模型为同一图像生成不同风格的文本的能力。

SCITUNE Aligning Large Language Models with Scientific Multimodal Instructions

SCITUNE：使大型语言模型与科学多模态指令对齐

方法：

创新点：

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment

SyCoCa：通过关注掩蔽实现对比性描述符的对称化以进行多模态对齐

方法：

对比性描述符（CoCa）：整合了对比性语言-图像预训练（CLIP）和图像描述（IC）到一个统一框架中。
双向交互：提出了Symmetrizing Contrastive Captioners（SyCoCa），引入了图像和文本之间的双向交互，包括全局和局部表示层面。
文本引导的遮蔽图像建模（TG-MIM）：基于ITC和IC头扩展了TG-MIM头，利用文本线索重建上下文图像和视觉线索预测文本内容。
关注掩蔽策略：为了实现双向局部交互，采用了关注掩蔽策略来选择有效的图像块进行交互。

创新点：

双向全局和局部交互：SyCoCa通过引入TG-MIM头，实现了图像到文本和文本到图像的双向局部交互，提升了细粒度的多模态对齐能力。
关注掩蔽策略：通过计算图像令牌和文本令牌之间的相似度来选择相关的图像块，提高了模型对图像和文本之间相关性的理解，例如在Flickr-30k数据集上的图像-文本检索任务中，mTR/mIR性能提升了+5.1%/3.7%。
多模态任务性能提升：在五个视觉-语言任务中验证了SyCoCa的有效性，包括图像-文本检索、图像描述、视觉问答以及零样本/微调图像分类任务。
细粒度对齐能力：SyCoCa通过TG-MIM头和关注掩蔽策略，增强了模型在细粒度层面上对图像和文本的对齐能力，从而在多模态任务中取得了更好的性能。

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation

ZeroNLG：对齐和自动编码领域以实现零样本多模态和多语言自然语言生成

方法：

创新点：

跨模态和语言的零样本NLG：ZeroNLG是第一个在统一框架内尝试进行零样本多模态和多语言自然语言生成的方法，无需任何下游训练对。
跨域对齐：通过在共同潜在空间中对齐不同领域，ZeroNLG能够桥接视觉和语言领域，以及英语和非英语领域，如中文、德文和法文。
性能提升：在十二个NLG任务上的广泛实验表明，ZeroNLG在没有任何标记的下游数据对训练的情况下，生成了高质量和“可信”的输出，并显著优于现有的零样本方法。
易于扩展：ZeroNLG可以轻松扩展到其他语言（例如瑞典语和意大利语），通过对齐和桥接英语和目标语言领域，证明了其在多语言NLG任务中的潜力和效果。