前言
(Frankly speaking,博主太懒了)章节一只对CLIP、BLIP、BLIP2、InstructBLIP进行了整理,章节二以CLIP、VisualGLM作为实践案例。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
实际上多模态模型除了CLIP、BLIP、BLIP2、InstructBLIP,还有LLaVA、miniGPT4,以及国内清华的VisualGLM、阿里的Qwen-VL等。
一、多模态模型 & 理论
1. CLIP
图1. CLIP结构
paper: https://arxiv.org/abs/2103.00020
github: https://github.com/openai/CLIP
基本思想: CLIP通过大规模的图像和文本对进行对比学习,学习在特征空间中对齐文本和图像,从而理解图像内容和文本描述之间的关联。
模型结构:
- 图像编码器:通常使用Vision Transformer (ViT) 或者其他卷积神经网络 (CNN) 如ResNet作为backbone。
- 文本编码器:通常采用BERT或类似基于Transformer的模型。
- 特征提取后,图像和文本特征通过归一化处理,然后通过点积计算余弦相似度,使用对比损失(info-NCE loss)进行训练。
2. BLIP
图2. BLIP结构
paper: https://arxiv.org/abs/2201.12086
github: https://github.com/salesforce/BLIP
基本思想: BLIP旨在通过自举方法来提升模型在视觉-语言理解和生成任务上的性能。BLIP还可以通过生成合成图像描述并使用过滤器去除噪声描述,有效地利用了网络上收集的噪声图像-文本对。
模型结构: BLIP模型采用了多模态混合编码器-解码器(Multimodal Mixture of Encoder-Decoder, MED)架构,该架构可以作为单模态编码器、图像引导的文本编码器或图像引导的文本解码器来操作。MED模型通过三种视觉-语言目标进行联合预训练:图像-文本对比学习(image-text contrastive learning)、图像-文本匹配(image-text matching)和图像条件语言建模(image-conditioned language modeling)。
- 图像编码器:使用视觉Transformer(如ViT)作为图像编码器,将输入图像分割成多个小块(patches),并将其编码为一系列嵌入向量,同时使用额外的[CLS]标记来表示整个图像的特征。
- 文本编码器:采用BERT或类似的基于Transformer的模型作为文本编码器,在文本输入的开始处附加[CLS]标记,以汇总句子的表示。
- 图像引导的文本编码器:在文本编码器的基础上,通过在自注意力(self-attention)层和前馈网络(feed-forward network)之间插入额外的交叉注意力(cross-attention)层来注入视觉信息。
- 图像引导的文本解码器:替换了图像引导的文本编码器中的双向自注意力层为因果自注意力层,并使用[Decode]标记来指示序列的开始和结束。
3. BLIP2
图3. BLIP2结构
paper: https://arxiv.org/abs/2301.12597
github: https://github.com/salesforce/LAVIS/tree/main
基本思想: BLIP2 提出了一种通用且高效的预训练策略,利用现成的预训练图像编码器和大型语言模型来引导视觉-语言预训练。BLIP2通过一个轻量级的查询转换器(Q-Former),在两个阶段进行预训练,以弥合模态间的差距。第一阶段从冻结的图像编码器中引导视觉-语言表示学习,第二阶段从冻结的LLM中引导视觉到语言的生成学习。
BLIP2模型结构:
- Q-Former(Querying Transformer):作为BLIP2中可训练的模块,Q-Former是一个轻量级的Transformer,它使用一组可学习的查询向量从冻结的图像编码器中提取视觉特征。Q-Former由两个Transformer子模块组成,它们共享自注意力层:一个图像Transformer用于与冻结的图像编码器交互,提取视觉特征;一个文本Transformer可以作为文本编码器和解码器,处理文本输入。
- 冻结的图像编码器:BLIP2使用现成的预训练图像编码器(如ViT-L/14或ViT-g/14)作为视觉特征提取器。这些图像编码器在预训练过程中保持冻结状态,以减少计算成本并避免灾难性遗忘问题。
- 冻结的大型语言模型(LLMs):BLIP-2利用预训练的大型语言模型(如OPT和FlanT5)进行文本生成。这些语言模型在预训练过程中也保持冻结状态。
- 两阶段预训练策略:
(1)视觉-语言表示学习:在这一阶段,Q-Former连接到冻结的图像编码器,并使用图像-文本对进行预训练。目标是训练Q-Former,使其能够提取与文本最相关的视觉表示。
(2)视觉到语言的生成学习: 在这一阶段,Q-Former连接到冻结的LLM,以利用LLM的文本生成能力。通过一个全连接层将Q-Former的输出查询嵌入投影到与LLM的文本嵌入相同的维度,然后将这些投影的查询嵌入作为视觉提示附加到输入文本嵌入的前面。
4. InstructBLIP
图4. InstructBLIP结构
paper: https://arxiv.org/abs/2305.06500
github: https://github.com/salesforce/LAVIS/tree/main/projects/instructblip
基本思想:InstructBLIP旨在通过指令调整(instruction tuning)来构建通用的视觉-语言模型,这些模型能够通过统一的自然语言接口解决广泛的视觉-语言任务。InstructBLIP基于预训练的BLIP-2模型,并通过多样化的指令数据集对多模态大型语言模型(LLM)进行训练。该框架使用了一系列公开可用的数据集,覆盖了多种任务和能力,并将它们转换为指令调整格式。InstructBLIP通过指令感知的视觉特征提取机制,使得模型能够灵活并根据给定指令提取信息性特征,从而显著提高了模型在各种视觉-语言任务上的零样本(zero-shot)泛化能力。
模型结构: InstructBLIP的模型结构基于BLIP2,包含以下关键组件。
-
图像编码器: 使用预训练的图像编码器(如ViT-g/14)来提取图像特征。
-
大型语言模型: 采用预训练的大型语言模型(如FlanT5或Vicuna),这些模型在指令调整过程中保持冻结状态。
-
查询转换器(Q-Former): 一个轻量级的Transformer结构,用于从图像编码器中提取视觉特征。Q-Former包含一组可学习的查询嵌入,通过交叉注意力与图像编码器的输出进行交互。
-
指令感知机制: InstructBLIP提出了一个新颖的指令感知视觉特征提取机制。文本指令不仅提供给冻结的LLM,还提供给Q-Former,使其能够根据给定指令从冻结的图像编码器中提取视觉特征。
-
平衡采样策略: 为了同步跨数据集的学习进度,InstructBLIP提出了一种平衡采样策略,根据数据集的大小或训练样本数量进行采样。
InstructBLIP通过这些组件和策略,在多种视觉-语言任务上实现了最先进的零样本性能,并且在个别下游任务的微调上也取得了最先进的性能。
二、多模态实践
1. 以 CLIP 为例
import torch
import clip
from PIL import Image
# (1)配置GPU & 导入model、preprocess
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)
# (2)导入本地image、text
image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)
text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)
# (3)通过CLIP的对比学习算出每个text和image的匹配概览
with torch.no_grad():
image_features = model.encode_image(image)
text_features = model.encode_text(text)
logits_per_image, logits_per_text = model(image, text)
probs = logits_per_image.softmax(dim=-1).cpu().numpy()
print("Label probs:", probs)
# prints: [[0.9927937 0.00421068 0.00299572]]
2. 以 VisualGLM 为例(摘自 HuggingFace 官网:https://huggingface.co/THUDM/visualglm-6b)
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。
VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。
from transformers import AutoTokenizer, AutoModel
# (1) 导入tokenizer & model
tokenizer = AutoTokenizer.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True).half().cuda()
# (2) 导入图片路径
image_path = "your image path"
# (3) model.chat()
response, history = model.chat(tokenizer, image_path, "描述这张图片。", history=[])
print(response)
response, history = model.chat(tokenizer, image_path, "这张图片可能是在什么场所拍摄的?", history=history)
print(response)
三、多模态应用领域
多模态模型库如下,可用于以下领域:多模态、计算机视觉、自然语言处理、强化学习、表格任务、音频任务、科学计算(蛋白子结构预测、蛋白质序列预测等)、时序技术…
以下四张图分别来自Huggingface(国外ML & DL社区)、Modelscope(阿里旗下的社区)、PaddlePaddle(百度飞桨社区)平台。
总结
章节一整理了Multi-model Large Language Models常用基座和原理,章节二以CLIP、VisualGLM为例对章节一理论进行实践。章节三展示了多模态模型库和在真实业务场景中的一些应用场景。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓