Gemma生态又添大将——3B VLM的paligemma

DisonTangor

已于 2024-05-18 11:34:19 修改

阅读量977

点赞数 25

分类专栏：人工智能文章标签：人工智能 AIGC 语言模型

于 2024-05-18 11:31:18 首次发布

本文链接：https://blog.csdn.net/weixin_41446370/article/details/139022147

版权

人工智能专栏收录该内容

132 篇文章 2 订阅

订阅专栏

通过 IO 2024 大会可以充分看出 Google 正在加大 AI 领域的投资和研发。而目前主流的是闭源的 GPT 生态和开源的 Llama 生态。而在今年年初 DeepMind 就发布了 CodeGemma 和 RecurrentGemma，其中 RecurrentGemma 使用了最新研发的 Griffin 框架（尚在实验性），有意替代Transformers。而此次，Paligemma 也是为了填补了 Gemma 在 VLM 的空缺。

介绍

PaliGemma 是一个多功能、轻量级的视觉语言模型（VLM），它受 PaLI-3 的启发，基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件。它将图像和文本作为输入，并生成文本作为输出，支持多种语言。它的设计目的是在图像和短视频字幕、视觉问题解答、文本阅读、对象检测和对象分割等各种视觉语言任务中实现同类领先的微调性能。

Transformers PaliGemma 3B 使用 448*448（224*224）输入图像和 512 （256）标记输入/输出文本序列，在混合下游学术数据集上进行微调。模型采用 float32、bfloat16 和 float16 格式，仅供研究使用。

代码

GPU

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=dtype,
    device_map=device,
    revision="bfloat16",
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# Instruct the model to create a caption in Spanish
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

我在RTX2070试过，运行正常。

注意：Flash Attention2 由于某些原因会发生“/.local/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol: _ZN3c104cuda9SetDeviceEi”的错误，可以执行重装代码

pip install flash_attn -U --force-reinstall

DisonTangor

关注

25
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Gemma生态又添大将——3B VLM的paligemma

PaliGemma 是一个多功能、轻量级的视觉语言模型（VLM），它受 PaLI-3 的启发，基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件。它将图像和文本作为输入，并生成文本作为输出，支持多种语言。它的设计目的是在图像和短视频字幕、视觉问题解答、文本阅读、对象检测和对象分割等各种视觉语言任务中实现同类领先的微调性能。
复制链接

扫一扫

专栏目录