多模态模型（图像-文本）的普遍训练方法

最新推荐文章于 2025-04-10 19:03:17 发布

AI每天一点点

最新推荐文章于 2025-04-10 19:03:17 发布

阅读量2.4k

点赞数 24

文章标签：人工智能

本文链接：https://blog.csdn.net/Java_college/article/details/136320945

版权

训练架构

多模态模型的目标，都是致力于把两个模态的数据（图像数据-自然语言数据）编码到同一个语义空间。所以一般来说都会有两个模块，一个图像编码器，一个文本编码器。一些方法为了提升效果，会附加一些模块，比如 Albef 加了一个融合编码器。另一些方法为了让模型同时具有理解图像文本和生成文本的功能，加了生成模块。

所有的损失函数都是为了让整个模型能同时理解图像和文本的语义。

对比学习当之无愧

非常经典的就是 CLIP 了，用图像编码器编码 + 文本编码器编码，得到的特征让它们相乘，让成对儿样本的特征的乘积靠近1，让不成对儿的样本特征的乘积靠近0。

图文匹配

给模型加个二分类层，让图像和文图特征一起送进这个二分类层训练，让配对的预测结果更靠近1，不配对的预测结果更靠近0。

这个跟对比学习不一样，注意区分。对比学习直接算乘积，图文匹配是一起送进二分类层训。等训完了这个二分类层就光荣退休了。

masked token 预测

文本编码器里，把文本的 token 遮掉，让模型预测它是哪个 token。这种方式是 bert 的训练法，被拿来做多模态，是为了让模型从图像特征里获取信息，从而更准确地预测文本里被遮掉的 token。

举个例子，图片里有只长颈鹿，文本被遮掉的的部分是“A photo of [masked token]”，这样模型就不得不从图片里找到长颈鹿这个信息。

图文生成

BLIP 和 BLIP2 里的，不预测 masked token 了，直接自回归预测句子的下一个 token。这种方式是 GPT 的训练方法，被拿过来做多模态，一是为了让模型从图像里学到跟文本相关的信息，二是这样的多模态模型不光能理解和编码图像文本信息，还能直接根据图文生信息成文本，直接做了类似于图文问答的任务。

动量蒸馏筛选难负样本

Albef 首先提出的，原因是网上爬的数据普遍存在噪声，当模型学到噪声数据时，错误的、或者说弱相关的图像文本对儿就会对模型产生负面影响。如果能有更多的监督信号就好了，所以有了动量蒸馏法。

动量蒸馏法存在两个模型，两个模型的参数不一样，其他全都一样。一个是 base 模型，正常更新参数，另一个是动量模型，用 EMA 的方式去更新参数（举个粗浅的例子，EMA 的参数 = 0.9 x 上一个模型的参数 + 0.1 x 更新后的模型参数）。

首先，当数据 x 进来时，先喂给动量模型，得到 y'。此时我们有 y 和 y' 两个标签，其中 y 是原始标签（放在对比学习里就是 one-hot 向量），另一个 y' 是用动量模型得到的伪标签。

生成文本与过滤策略（captioning and filtering，也被翻译为“字幕与过滤”）

这个是 BLIP 提出的，用来过滤网络数据集里的图文不匹配的噪声数据。BLIP 是一个即可以根据图像生成文字，又可以判断图文相似度的模型。

比如网上有些图片画面是夕阳下的一座桥，但配文是“这是从我家楼顶拍的”，这样的图文对儿送给模型，模型就会学的非常迷惑。

它的做法是，在小的、干净的数据集上先训两个模型：一个是“看图说话”模型（也就是 captioner），喂一张图能生成对应的描述图像的文本；另一个是“判断文本和图片是否匹配”模型（也就是 filter）。

在训练多模态模型的过程中，先用 captioner 给这张图生成文本 Y'，然后把生成的文本和原始数据集里的文本 y 喂给过滤器 filter 打分，留下分数高的文本作为图像对应的文本喂给多模态模型进行学习。

还是上面的例子，原始文本是“这是从我家楼顶拍的”，captioner 生成的文本是“夕阳下的一座桥”， filter 认为 captioner 生成的文本最贴近图像的意思，就保留 captioner 生成的这条文本，然后喂给多模态模型训练。

这里要考虑一个问题，用 captioner 和 filter 来指导多模态模型（VLP），为什么有效？在它没见过的数据上 captioner 和 filter 会不会误导模型？

答案是：还是利大于弊的。

假设 captioner 和 filter 都只学会了一部分图像和文本的知识。训练 VLP 时，如果出现 captioner 和 filter 学过的知识，毋庸置疑，提高了数据纯度；如果出现了文本生成器和过滤器没学过的知识，首先生成器会生成的不准确，其次过滤器会也过滤的不准确，假设它随机过滤掉了一半网络文本和一半生成文本。此时模型学习时，依然学到的是带噪样本。所以总的来说，captioner 和 filter 提高了它们见过的那类数据的纯度，对没见过的数据的影响或许不大。

所以，这样做的意义是，第一，它用高精度生成器和过滤器来得到高性能的双功能的多模态模型；第二，对于生成器和过滤器学过的内容，样本纯度可以提升，它俩没学过的内容样本纯度保持不变，所以总体上会让纯度提升一部分。

高质量数据微调

在大而多样的数据集上进行预训练，在更小但更高质量的数据集上进行微调，可以显著提高性能。

这个方法是在 Stable Video Diffusion 里提到的，已经在另外两篇论文了验证了。

这两篇论文是：1）Emu: Enhancing image generation models using photogenic needles in a haystack；2）High-Resolution Image Synthesis with Latent Diffusion Models。

目前这个方法也在 Stable Video Diffusion 中被验证了，那基本可以肯定所有的大模型在经过noise的数据训练后，再在一个高质量小数据集上微调，最终效果会好得多。

主流的图像—文本的多模态技术实现方法有哪些？

1、特征提取与融合：通过使用卷积神经网络（CNN）提取图像的视觉特征，使用循环神经网络（RNN）或Transformer提取文本的语义特征，然后将两种特征进行融合，得到图像-文本的多模态表示。

2、神经网络对齐：通过使用神经网络模型，如双向长短时记忆网络（BiLSTM）或Transformer，将图像和文本进行对齐，使得它们在同一空间中具有相似的表示。

3、共享嵌入空间：通过将图像和文本映射到一个共享的嵌入空间中，使得它们在该空间中的表示具有相似性。这可以通过训练一个共享的嵌入模型，如Siamese网络或Triplet网络来实现。

4、注意力机制：通过使用注意力机制，将图像和文本的重要信息进行对齐和加权，从而得到更好的多模态表示。注意力机制可以在特征提取阶段或特征融合阶段使用。

5、生成对抗网络（GAN）：通过使用生成对抗网络，如图像生成对抗网络（GAN）或文本生成对抗网络（GAN），实现图像和文本之间的互相生成和对抗，从而达到更好的多模态表示。

需要人工智能入门进阶学习资料包！想听免费AI公开课的！让你倾听圈内大牛来揭秘未来AI发展潮流，还能与行业大佬面对面交流，领取行业大佬提供的学习资料！

可以关注威信公众号：AI技术星球回复：211 了解获取

需要论文指导发刊的【AI交叉学科、SCI、CCF-ABC、期刊、会议、本硕博论文、在职论文指导、Kaggle比赛指导、润色发刊等】

白嫖100G入门到进阶AI资源包+kaggle竞赛+就业指导+技术问题答疑

1、超详细的人工智能学习路

2、OpenCV、Pytorch、YOLO等教程

3、人工智能快速入门教程（Python基础、数学基础、NLP）附源码课件数据

4、机器学习算法+深度学习神经网络基础教程

5、人工智能必看书籍（花书、西瓜书、蜥蜴书等）

6、顶刊论文及行业报告

7、SCI论文攻略及润色等