Qwen2.5-VL 开源项目教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_01024/article/details/147058805

Qwen2.5-VL 开源项目教程

Qwen2.5-VL Qwen2.5-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud. 项目地址: https://gitcode.com/gh_mirrors/qw/Qwen2.5-VL

1. 项目介绍

Qwen2.5-VL 是由 Qwen 团队和阿里云共同开发的的多模态大型语言模型系列。该模型具备强大的文档解析能力、精确的对象定位、超长视频理解和细粒度视频定位等功能。适用于多种场景，包括图像识别、视频理解、自然语言处理等领域。

2. 项目快速启动

环境准备

在开始之前，请确保您的环境中已经安装了以下依赖项：

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]

如果您的系统不支持 decord，则可以使用以下命令安装备用依赖项：

pip install qwen-vl-utils

快速启动代码

以下是一个简单的代码示例，展示如何使用 Qwen2.5-VL 进行图像识别：

from transformers import Qwen2_5_VLProcessor, Qwen2_5_VLForImageClassification
import torch

# 加载模型和处理器
processor = Qwen2_5_VLProcessor.from_pretrained("QwenLM/Qwen2.5-VL")
model = Qwen2_5_VLForImageClassification.from_pretrained("QwenLM/Qwen2.5-VL")

# 加载图像
image = PIL.Image.open("path/to/your/image.jpg")

# 处理图像并进行预测
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits

# 获取预测结果
predicted_class_idx = logits.argmax(-1).item()
label = model.config.id2label[predicted_class_idx]
print(f"Predicted label: {label}")

确保将 "path/to/your/image.jpg" 替换为您要识别的图像的路径。