Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!

Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!

Qwen团队 魔搭ModelScope社区 2025年01月30日 18:56

今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。期望这些示例能够帮助开发者和用户更全面地了解 Qwen2.5-VL 的强大视觉理解功能,并激发更多创新的应用场景。

通过这些 Notebook,开发者可以快速上手并体验模型在多种任务中的优秀表现,无论是处理复杂的文档解析、精准的 OCR 任务,还是深入的视频内容理解,Qwen2.5-VL 都能提供高效且准确的回复。同时,也期待社区的反馈与贡献,共同完善和拓展 Qwen2.5-VL 的能力边界。

🔗 链接: 

https://github.com/QwenLM/Qwen2.5-VL/tree/main/cookbooks

💬 体验地址:

https://chat.qwenlm.ai (选择Qwen2.5-VL-72B-Instruct模型)

🤖 模型链接:https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

⚙️ 百炼 API : https://help.aliyun.com/zh/model-studio/user-guide/vision/

01 Computer Use

这个 Notebook 展示了如何使用 Qwen2.5-VL 进行Computer Use 相关任务。

截取用户桌面的屏幕截图并接收一个用户的查询,然后利用模型对截图中的用户查询进行解释,并形成在桌面的精准点击或者输入等操作,从而控制电脑的使用。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb

02 空间理解

这个 Notebook 展示了 Qwen2.5-VL 先进的空间定位能力,包括精确的物体检测和图像中特定目标的定位。

看看它是如何整合视觉和语言理解,从而有效地解读复杂场景的。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb

图片

03 文档解析

这个 Notebook 展示了 Qwen2.5-VL 强大的文档解析能力。它可以处理任何图像,并以多种格式输出其内容,如 HTML、JSON、MD和LaTeX。

特别值得一提的是,Qwen引入了一种独特的 QwenVL HTML 格式,该格式包含每个组件的位置信息,从而实现精确的文档重建和操作。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

图片

04 Mobile Agent

这个 Notebook 展示了如何使用 Qwen2.5-VL 的代理功能调用能力与移动设备进行交互。

它展示了模型根据用户查询和视觉上下文生成并执行操作的能力。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb

图片

05 OCR

这个 Notebook 展示了 Qwen2.5-VL 的 OCR(光学字符识别)能力,包括从图像中提取和识别文本。

看看Qwen2.5-VL如何在复杂场景下准确捕捉和解读文本内容。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb

图片

06 万物识别

这个 Notebook 展示了如何使用 Qwen2.5-VL 进行通用识别。

它接收一张图像和一个查询,然后利用模型对图像中的用户查询进行解释。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb

图片

07 视频理解

Qwen2.5-VL 能够理解超过1小时的视频。在这个Notebook 中,将深入探讨 Qwen2.5-VL 模型在视频理解任务中的能力。

Qwen2.5-VL的目标是展示这个先进模型如何应用于各种视频分析场景,从基础的 OCR(光学字符识别)到复杂的事件检测和总结。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb

图片

魔搭最佳实践

在魔搭社区的免费算力上,就可以玩转这些Cookbook哦。

首先,下载Qwen2.5-VL代码:

git clone https://github.com/QwenLM/Qwen2.5-VL.git

Notebook中使用模型API:魔搭平台的API-Inference,提供了免费的Qwen2.5-VL系列模型API。魔搭的用户可通过API调用的方式直接使用,直接替换Cookbook中的base-URL和填写魔搭SDK Token即可。文档:https://www.modelscope.cn/docs/model-service/API-Inference/intro

from openai import OpenAIclient = OpenAI(    api_key="<MODELSCOPE_SDK_TOKEN>", # ModelScope Token    base_url="https://api-inference.modelscope.cn/v1")
response = client.chat.completions.create(    model="Qwen/Qwen2.5-VL-72B-Instruct", # ModleScope Model-Id    messages = [        {
  
              "role": "user",            "content": [                {
  
                      "type": "image_url",                    "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/bird-vl.jpg"}                },                {   "type": "text",                     "text": "Count the number of birds in the figure, including those that are only showing their heads. To ensure accuracy, first detect their key points, then give the total number."                },            ],        }    ],    stream=True    )

Notebook使用本地模型,请选择GPU机型。

图片

### Qwen2.5-VLQwen2.5-Instruct 的区别 #### 架构设计上的差异 Qwen2.5-VL 系列相较于 Qwen2.5-Instruct,在模型架构上有显著的不同。Qwen2.5-VL 针对多模态任务进行了优化,其网络结构被进一步简化以增强对时间与空间尺度的感知能力[^1]。这种改进使得 Qwen2.5-VL 更适合处理涉及图像、视频以及其他复杂数据形式的任务。 相比之下,Qwen2.5-Instruct 主要专注于纯文本输入场景下的指令跟随性能提升。它通过强化训练来提高对话理解和生成质量,适用于自然语言处理中的问答、翻译以及代码生成等领域。 #### 性能表现的区别 由于上述架构调整,Qwen2.5-VL 在运行效率方面有所改善,并且能够在多项视觉语言综合评测指标上取得优异成绩,甚至优于某些国际知名竞品(如 GPT-4o-mini)。而 Qwen2.5-Instruct 则更侧重于文字交互体验流畅度和准确性方面的突破。 ### 应用场景对比分析 #### 多模态领域应用-Qwen2.5-VL 对于需要融合多种感官信息的应用场合来说,比如自动驾驶辅助系统开发过程中需要用到的道路环境识别功能;或者医疗健康监测设备里涉及到的人体生理参数可视化展示部分,则可以优先考虑采用具备更强时空理解力特性的 Qwen2.5-VL 模型来进行技术支持。 以下是基于 vLLM 平台部署该版本的具体操作方法示例: ```bash HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download Qwen/Qwen2.5-VL-7B-Instruct ``` 启动服务端口监听命令如下所示: ```python import vllm from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct") model = vllm.LLM("Qwen/Qwen2.5-VL-7B-Instruct", tokenizer=tokenizer) # Start the server with a specific port number. server = model.start_server(port=8090) ``` #### 文本处理方向适用-Qwen2.5-Instruct 当项目需求集中于文档摘要提取、情感倾向判断或是创意写作支持等方面时,那么选择经过专门调校过的 Qwen2.5-Instruct 将会更加合适一些。这类应用场景通常只需要依赖高质量的语言表达能力和逻辑推理技巧即可满足业务目标要求[^2]。 例如可以通过以下方式加载并初始化这个特定用途定制化后的实例对象用于实际生产环境中: ```python from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer model_name_or_path = 'Qwen/Qwen2.5-Instruct' tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer) result = text_generator("Write an article about artificial intelligence.", max_length=500)[0]['generated_text'] print(result) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值