【3050 Ti】也能本地部署Qwen2.5-VL

【3050 Ti】也能本地部署Qwen2.5-VL

引言

随着多模态人工智能技术的快速发展,视觉语言模型(Vision-Language Models, VLMs)逐渐成为研究和应用的热点。Qwen2.5-VL是阿里巴巴通义实验室推出的一款先进的视觉语言模型,能够处理图像和文本的联合任务,如图像描述生成、视觉问答(VQA)、图文匹配等。

本文将详细介绍如何在一台配备NVIDIA GeForce RTX 3050 Ti显卡的设备上部署Qwen2.5-VL。


一、Qwen2.5-VL介绍

1.1 模型背景

Qwen2.5-VL是基于Qwen2.5大模型开发的视觉语言模型,继承了Qwen系列在自然语言处理领域的强大能力,同时扩展了对视觉信息的理解和生成能力。它支持多种跨模态任务,能够无缝结合图像和文本数据,为用户提供丰富的应用场景。

1.2 开源与生态

Qwen2.5-VL已开源,用户可以通过阿里云ModelScope平台获取模型权重和相关文档。此外,ModelScope还提供了详细的教程和API支持,帮助开发者快速集成模型到自己的项目中。


二、模型能力

Qwen2.5-VL具备以下核心能力:

2.1 图像描述生成

输入一张图片,模型可以自动生成描述性文字。例如:

  • 输入:一张风景照片
  • 输出:这张照片展示了一棵位于新西兰瓦纳卡湖中的著名柳树,被称为“那棵瓦纳卡树”。这棵树以其独特的姿态和在平静湖水中的完美倒影而闻名。周围的景色包括白雪覆盖的山脉和宁静的天空,使其成为摄影师和游客们钟爱的拍摄地点。整张照片捕捉到了这一自然地标令人惊叹的美丽与宁静。
    在这里插入图片描述

2.2 视觉问答(VQA)

给定一张图片和一个问题,模型会返回答案。例如:

  • 输入:图片 + 问题“图片中的动物是什么?”
  • 输出:“图片中的动物是一只小猫。它有着橙色的毛发和蓝色的眼睛,看起来非常可爱。小猫正坐在一块木头上,背景是模糊的绿色植物。
    在这里插入图片描述

2.3 图文匹配

判断一段文本是否与图片相关联。例如:

  • 输入:图片 + 文本“这是一张关于科技的照片”
  • 输出:这张照片确实可以被视为一张关于科技的照片,尽管它以一种非常艺术化和象征性的方式呈现。以下是一些支持这一观点的理由…
    在这里插入图片描述

2.4 跨模态内容生成

模型可以根据文本生成相关的图像描述,或者根据图像生成相关的文本内容。

  • 输入:图片中的狗狗在哪儿
  • 输出:图片中的狗狗位于一片绿色的草地上,正朝向镜头方向奔跑。它嘴里叼着一根木棍,显得非常活泼和快乐。狗狗的位置大约在画面的中央偏上部分,背景是一片开阔的草地,没有其他明显的障碍物或物体。在这里插入图片描述

三、部署方案

在本节中,我们将详细介绍如何在一台配备RTX 3050 Ti显卡的设备上部署Qwen2.5-VL。

3.1 硬件环境

  • GPU:NVIDIA GeForce RTX 3050 Ti(4GB显存)
  • CPU:Intel Core i5 或更高
  • 内存:至少8GB RAM(建议16GB)
  • 存储:至少20GB可用空间(用于安装依赖和模型文件)

3.2 软件环境

  • 操作系统:Windows 10/11 或 Linux(Ubuntu 20.04)
  • Python版本:3.8或更高
  • CUDA Toolkit:CUDA 11.7(与RTX 3050 Ti兼容)
  • PyTorch:1.12或更高
  • Anaconda:最新版本
  • Transformers库(Hugging Face)

3.3安装步骤

1、克隆 Qwen2.5-VL GitHub 存储库
git clone https://github.com/QwenLM/Qwen2.5-VL
2、创建虚拟环境并指定版本(可选)
# 我创建的虚拟环境名称为qwenvl
conda create -n your_env_name python=3.x
3、激活虚拟环境,安装Pytorch及CUDA环境,可以直接到Pytorch官网复制代码直接安装。https://pytorch.org/

在这里插入图片描述

# 激活虚拟环境
activate qwenvl

# 安装Pytorch及CUDA环境
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
4、导航到 Qwen2.5-VL GitHub 存储库目录并安装Qwen2.5-VL
# 1、导航到Qwen2.5-VL本地目录
cd Qwen2.5-VL

# 2、使用以下命令安装 Web 应用程序所需的依赖项:
pip install -r requirements_web_demo.txt

# 3、安装模型,由于电脑配置问题,我选择的是较小的 3B 模型
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"
5、电脑配置好的可以选择更大的模型
# 1、显存高于8GB可以选择7B 模型
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"

# 2、专业级别的 GPU,那么可以直接上 72B 的最大模型
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"
6、安装完成后在浏览器上打开本地链接 http://127.0.0.1:7860 即可正常使用

在这里插入图片描述


四、注意事项

1、当出现“Some parameters are on the meta device because they were offloaded to the disk and cpu.”说明模型运行在CPU上,极大概率运行报错。

在这里插入图片描述
在这里插入图片描述

2、解决方法:找到本地 Qwen2.5-VL GitHub 存储库目录web_demo_mm.py文件。

在这里插入图片描述

3、打开web_demo_mm.py文件,将下列图片中的代码替换为下面代码,并指定在CUDA上运行:。

在这里插入图片描述

#  设置设备映射
    device_map = {
        "": "cuda:0" if not args.cpu_only else "cpu"
    }
    
    # 检查CUDA可用性
    if not args.cpu_only and not torch.cuda.is_available():
        raise RuntimeError("CUDA设备不可用,请添加--cpu-only参数运行")

    # 加载模型时显式指定设备
    model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
        args.checkpoint_path,
        device_map=device_map,
        torch_dtype=torch.bfloat16 if not args.cpu_only else torch.float32
    )
4、重新运行环境,激活模型

在这里插入图片描述

5、如果你的电脑硬件不支持,那么可以直接使用官方的免费平台来使用,网址:https://chat.qwen.ai/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值