Coggle数据科学 | 小白学大模型:多模态 Qwen2.5-VL

本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。

原文链接:小白学大模型:多模态 Qwen2.5-VL

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。

https://github.com/QwenLM/Qwen2.5-VL

安装方法

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]

模型硬件要求:

Precision

Qwen2.5-VL-3B

Qwen2.5-VL-7B

Qwen2.5-VL-72B

FP32

11.5 GB

26.34 GB

266.21 GB

BF16

5.75 GB

13.17 GB

133.11 GB

INT8

2.87 GB

6.59 GB

66.5 GB

INT4

1.44 GB

3.29 GB

33.28 GB

模型特性

  • 强大的文档解析能力:将文本识别升级为全文档解析,擅长处理多场景、多语言以及包含各种内置元素(手写文字、表格、图表、化学公式和乐谱)的文档。

  • 精准的对象定位跨格式支持:提升了检测、指向和计数对象的准确性,支持绝对坐标和JSON格式,以实现高级空间推理。

  • 超长视频理解和细粒度视频定位:将原生动态分辨率扩展到时间维度,增强对时长数小时的视频的理解能力,同时能够在秒级提取事件片段。

  • 增强的计算机和移动设备代理功能:借助先进的定位、推理和决策能力,为模型赋予智能手机和计算机上更出色的代理功能。

使用案例

基础图文问答

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto"
)

# 传入文本、图像或视频
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

# Preparation for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to(model.device)

# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

多图输入

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "file:///path/to/image1.jpg"},
            {"type": "image", "image": "file:///path/to/image2.jpg"},
            {"type": "text", "text": "Identify the similarities between these images."},
        ],
    }
]

视频理解

  • Messages containing a images list as a video and a text query

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": [
                    "file:///path/to/frame1.jpg",
                    "file:///path/to/frame2.jpg",
                    "file:///path/to/frame3.jpg",
                    "file:///path/to/frame4.jpg",
                ],
            },
            {"type": "text", "text": "Describe this video."},
        ],
    }
]
  • Messages containing a local video path and a text query

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": "file:///path/to/video1.mp4",
                "max_pixels": 360 * 420,
                "fps": 1.0,
            },
            {"type": "text", "text": "Describe this video."},
        ],
    }
]
  • Messages containing a video url and a text query

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-VL/space_woaudio.mp4",
                "min_pixels": 4 * 28 * 28,
                "max_pixels": 256 * 28 * 28,
                "total_pixels": 20480 * 28 * 28,
            },
            {"type": "text", "text": "Describe this video."},
        ],
    }
]

物体检测

  • 定位最右上角的棕色蛋糕,以JSON格式输出其bbox坐标

图片

  • 请以JSON格式输出图中所有物体bbox的坐标以及它们的名字,然后基于检测结果回答以下问题:图中物体的数目是多少?

图片

图文解析OCR

  • 请识别出图中所有的文字

图片

  • Spotting all the text in the image with line-level, and output in JSON format.

图片

  • 提取图中的:['发票代码','发票号码','到站','燃油费','票价','乘车日期','开车时间','车次','座号'],并且按照json格式输出。

图片

Agent & Computer Use

The user query:在盒马中,打开购物车,结算(到付款页面即可) (You have done the following operation on the current device):

图片

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

<think>好的,用户想知道Qwen2.5-VL是否在线以及相关的使用信息。首先,我需要确认Qwen2.5-VL的在线状态。根据提供的引用,用户提到了Qwen2.5-7B-Instruct和Qwen2.5-Coder、Qwen2.5-Math,但并没有直接提到Qwen2.5-VL。因此,可能需要推测Qwen2.5-VL是否是同系列的一部分,或者是否已经发布。 接下来,检查引用内容。引用[2]提到了Qwen2.5-Coder和Qwen2.5-Math,但没有提到VL版本,这可能意味着Qwen2.5-VL可能尚未公开发布,或者信息不在当前提供的引用中。用户可能需要查阅官方文档或Hugging Face页面以获取最新信息,如引用[1]中的链接指向Qwen2.5-7B-Instruct的页面,可能需要在该仓库或相关项目中查找是否有Qwen2.5-VL的提及。 另外,引用[3]讨论了如何使用Ollama部署Qwen2.5-Coder,这可能暗示Qwen系列的不同模型可能有不同的部署方式。如果Qwen2.5-VL存在,可能需要类似的步骤进行本地部署,但需要确认其是否支持。 需要注意的是,用户可能混淆了模型名称,或者Qwen2.5-VL可能是即将发布的版本。因此,建议用户查看官方发布渠道,如Hugging Face或项目GitHub页面,以获取准确信息。同时,可以建议用户关注更新公告,或者联系支持团队确认。 总结回答时,需要明确当前引用中没有Qwen2.5-VL的信息,可能存在尚未发布或需要其他途径获取。同时,提供相关模型的已知信息,如Coder和Math的用途,并引导用户到正确的资源获取帮助。</think>根据现有信息,Qwen2.5-VL 的在线状态和使用说明目前尚未在提供的引用材料中明确提及。已知的 Qwen2.5 系列包含专门面向编程的 $Qwen2.5\text{-}Coder$ 和数领域的 $Qwen2.5\text{-}Math$,这些模型通过领域专用训练实现了性能提升[^2]。若需了解 Qwen2.5-VL 的具体信息,建议采取以下步骤: 1. **查阅官方渠道** 访问 Hugging Face 的 Qwen 模型仓库(如[Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct/tree/main))[^1],查看是否有新增的 VL(Vision-Language,视觉语言)模型发布公告。 2. **本地部署可能性** 若 Qwen2.5-VL 支持本地部署,可参考 Qwen2.5-Coder 的部署方法(如通过 Ollama 工具),但需确认模型是否提供对应的权重文件及接口[^3]。 3. **功能特性推测** 根据 Qwen2.5 系列的命名规则,VL 可能指代多模态能力(如图文理解/生成)。此类模型通常需要特定格式的输入,例如: $$ \text{Input} = [图像嵌入] \oplus [文本嵌入] $$ 其中 $\oplus$ 表示多模态融合操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值