显存溢出困境:如何在 RTX 4090 上运行 Qwen2-VL

Qwen2-VL 模型介绍

Qwen2-VL拥有三个参数量分别为 20亿、70 亿和 720 亿的模型。本仓库包含经过指令调优的 7B Qwen2-VL 模型。

评估结果

图像基准测试

基准 InternVL2-8B MiniCPM-V 2.6 GPT-4o-mini Qwen2-VL-7B
MMMUval 51.8 49.8 60 54.1
DocVQAtest 91.6 90.8 - 94.5
InfoVQAtest 74.8 - - 76.5
ChartQAtest 83.3 - - 83.0
TextVQAval 77.4 80.1 - 84.3
OCRBench 794 852 785 845
MTVQA - - - 26.3
RealWorldQA 64.4 - - 70.1
MMEsum 2210.3 2348.4 2003.4 2326.8
MMBench-ENtest 81.7 - - 83.0
MMBench-CNtest 81.2 - - 80.5
MMBench-V1.1test 79.4 78.0 76.0 80.7
MMT-Benchtest - - - 63.7
MMStar 61.5 57.5 54.8 60.7
MMVetGPT-4-Turbo 54.2 60.0 66.9 62.0
HallBenchavg 45.2 48.1 46.1 50.6
MathVistatestmini 58.3 60.6 52.4 58.2
MathVision - - - 16.3

视频基准测试

基准 Internvl2-8B LLaVA-OneVision-7B MiniCPM-V 2.6 Qwen2-VL-7B
MVBench 66.4 56.7 - 67.0
PerceptionTesttest - 57.1 - 62.3
EgoSchematest - 60.1 - 66.7
Video-MMEwo/w subs 54.0/56.9 58.2/- 60.9/63.6 63.3/69.0

使用要求

Qwen2-VL 的代码已包含在最新的 Hugging Face Transformers 中,建议您通过以下命令从源代码构建:

pip install git+https://github.com/huggingface/transformers

避免出现以下错误:

KeyError: 'qwen2_vl'

快速入门

我们提供了一个工具包,帮助您更方便地处理各种类型的视觉输入,支持 base64、URLs 和交错的图像与视频。安装命令如下:

pip install qwen-vl-utils

以下是如何使用 transformers 和 qwen_vl_utils 的代码示例:

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
from modelscope import snapshot_download

model_dir = snapshot_download("qwen/Qwen2-VL-7B-Instruct")

# 默认:在可用设备上加载模型
model = Qwen2VLForConditionalGeneration.from_pretrained(
    model_dir, torch_dtype="auto", device
### 关于Qwen2-VL与NVIDIA GeForce RTX 4090的相关信息 #### Qwen2-VL简介 Qwen2-VL是一个多模态大模型,能够处理图像和文本数据,在自然语言理解和生成方面表现出色。随着人工智能技术的发展,掌握这类先进的模型对于个人职业发展具有重要意义[^1]。 #### NVIDIA GeForce RTX 4090特性及其对AI的影响 NVIDIA GeForce RTX 4090是一款高性能显卡,拥有显著提升的数据处理能力。其强大的计算性能使得复杂算法训练时间大幅缩短,尤其适合用于加速像Qwen2-VL这样的大型预训练模型的学习过程。具体来说: - **CUDA核心数**:RTX 4090配备了大量的CUDA核心,这有助于提高并行运算效率。 - **内存带宽**:更大的显存容量和支持更高的传输速率意味着可以加载更大规模的数据集以及更复杂的神经网络结构。 - **Tensor Cores**:专为机器学习设计的核心单元,能有效加快矩阵乘法操作的速度,这对于深度学习任务至关重要。 #### 使用Docker部署基于Qwen2-VL的服务并与RTX 4090配合工作 为了充分利用硬件资源来支持Qwen2-VL的应用程序开发或研究项目,可以通过如下命令启动相应的容器化环境,并确保GPU被正确识别和利用[^3]: ```bash docker run --runtime=nvidia --gpus=all \ -p 9000:9000 \ --ipc=host \ -v /path/to/local/model/directory:/qwen2-vl-7b-instruct \ -it --rm \ vllm/vllm-openai:latest \ --model=/qwen2-vl-7b-instruct --dtype=float16 --max-model-len=10240 --enforce-eager --host=0.0.0.0 --port=9000 ``` 此配置文件中的参数设置旨在优化针对特定型号GPU(如RTX 4090)的工作负载表现,从而获得最佳性能体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值