显存溢出困境：如何在 RTX 4090 上运行 Qwen2-VL

路人与大师

已于 2024-09-27 17:15:06 修改

阅读量4.9k

点赞数 13

文章标签：多模态理解

于 2024-09-27 16:50:11 首次发布

本文链接：https://blog.csdn.net/weixin_41046245/article/details/142597366

版权

Qwen2-VL 模型介绍

Qwen2-VL拥有三个参数量分别为 20亿、70 亿和 720 亿的模型。本仓库包含经过指令调优的 7B Qwen2-VL 模型。

评估结果

图像基准测试

基准	InternVL2-8B	MiniCPM-V 2.6	GPT-4o-mini	Qwen2-VL-7B
MMMUval	51.8	49.8	60	54.1
DocVQAtest	91.6	90.8	-	94.5
InfoVQAtest	74.8	-	-	76.5
ChartQAtest	83.3	-	-	83.0
TextVQAval	77.4	80.1	-	84.3
OCRBench	794	852	785	845
MTVQA	-	-	-	26.3
RealWorldQA	64.4	-	-	70.1
MMEsum	2210.3	2348.4	2003.4	2326.8
MMBench-ENtest	81.7	-	-	83.0
MMBench-CNtest	81.2	-	-	80.5
MMBench-V1.1test	79.4	78.0	76.0	80.7
MMT-Benchtest	-	-	-	63.7
MMStar	61.5	57.5	54.8	60.7
MMVetGPT-4-Turbo	54.2	60.0	66.9	62.0
HallBenchavg	45.2	48.1	46.1	50.6
MathVistatestmini	58.3	60.6	52.4	58.2
MathVision	-	-	-	16.3

视频基准测试

基准	Internvl2-8B	LLaVA-OneVision-7B	MiniCPM-V 2.6	Qwen2-VL-7B
MVBench	66.4	56.7	-	67.0
PerceptionTesttest	-	57.1	-	62.3
EgoSchematest	-	60.1	-	66.7
Video-MMEwo/w subs	54.0/56.9	58.2/-	60.9/63.6	63.3/69.0

使用要求

Qwen2-VL 的代码已包含在最新的 Hugging Face Transformers 中，建议您通过以下命令从源代码构建：

pip install git+https://github.com/huggingface/transformers

避免出现以下错误：

KeyError: 'qwen2_vl'

快速入门

我们提供了一个工具包，帮助您更方便地处理各种类型的视觉输入，支持 base64、URLs 和交错的图像与视频。安装命令如下：

pip install qwen-vl-utils

以下是如何使用 transformers 和 qwen_vl_utils 的代码示例：

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
from modelscope import snapshot_download

model_dir = snapshot_download("qwen/Qwen2-VL-7B-Instruct")

# 默认：在可用设备上加载模型
model = Qwen2VLForConditionalGeneration.from_pretrained(
    model_dir, torch_dtype="auto", device