多模态大模型（2）--BLIP

最新推荐文章于 2025-03-20 15:25:18 发布

阿牛牛阿

最新推荐文章于 2025-03-20 15:25:18 发布

阅读量979

点赞数 22

分类专栏：前沿技术--大模型文章标签： transformer 深度学习人工智能 AIGC ai

本文链接：https://blog.csdn.net/burstone/article/details/143782646

版权

前沿技术--大模型专栏收录该内容

16 篇文章

订阅专栏

大模型如火如荼，研究者们已经不再满足于基本文本的大语言模型（LLM, Large Language Model），AI领域的热点正逐步向多模态转移，具备多模态能力的多模态大型语言模型（MM（Multi-Modal）-LLM）就成了一个备受关注的研究主题。BLIP（Bootstrapping Language-Image Pretraining）是由Salesforce在2022年提出的多模态预训练模型，它旨在统一视觉语言任务的理解与生成能力，并通过对噪声数据的处理来提高模型性能。本文进行简要的介绍：

模型结构

BLIP模型采用了一种编码器-解码器混合架构（Multimodal mixture of Encoder-Decoder, MED），这种架构非常灵活，可以作为单模态编码器、图像引导文本编码器或图像引导文本解码器来使用。MED包括两个单模态编码器（图像编码器和文本编码器），一个以图像为基础的编码器和一个以图像为基础的解码器。
在这里插入图片描述

预训练方法

BLIP通过三种视觉语言目标进行联合训练：

图像文本的对比学习：通过对比学习，BLIP学习图像和文本之间的相似度。
图像文本匹配：BLIP学习匹配图像和相关文本。
图像条件语言建模：BLIP学习基于图像内容生成文本描述。

CapFilt 机制

BLIP引入了一种高效率利用噪声网络数据的方法，称为CapFilt。这个方法包括两个模块：Captioner和Filter。Captioner用于生成文本标注，而Filter用于去除文本噪声。通过这种方式，BLIP提高了数据的质量和数量，从而提高了模型在视觉语言任务上的性能。
在这里插入图片描述

特点

BLIP的创新主要有两个方面：

任务多样性：与CLIP相比，BLIP不仅处理图像和文本的对齐问题，还旨在解决包括图像生成、视觉问答和图像描述等更复杂的任务。
训练方式：BLIP采用了“引导学习”的方式，通过自监督的方式来增强模型对语言和视觉信息的理解。
这些特点使其在处理图像和文本数据方面展现了卓越的性能，成为众多领域解决复杂问题的强大工具。

应用

利益于BLIP和BLIP-2模型在多模态对齐机制的能力，它在多个实际场景有所应用：
● 图像-文本检索：实现图像检索文本或文本检索图像的双向检索功能。
● 视觉问答（VQA）：理解视觉问题（图像语义）并生成回答。
● 图像描述生成：生成对图像的自然语言描述，适用于自动化图片标注、社交媒体内容生成等。
● 多模态生成与交互：BLIP-2通过优化跨模态生成机制，在图像-文本交互中实现了更强的生成效果。