Qwen2-VL 模型介绍
Qwen2-VL拥有三个参数量分别为 20亿、70 亿和 720 亿的模型。本仓库包含经过指令调优的 7B Qwen2-VL 模型。
评估结果
图像基准测试
基准 | InternVL2-8B | MiniCPM-V 2.6 | GPT-4o-mini | Qwen2-VL-7B |
---|---|---|---|---|
MMMUval | 51.8 | 49.8 | 60 | 54.1 |
DocVQAtest | 91.6 | 90.8 | - | 94.5 |
InfoVQAtest | 74.8 | - | - | 76.5 |
ChartQAtest | 83.3 | - | - | 83.0 |
TextVQAval | 77.4 | 80.1 | - | 84.3 |
OCRBench | 794 | 852 | 785 | 845 |
MTVQA | - | - | - | 26.3 |
RealWorldQA | 64.4 | - | - | 70.1 |
MMEsum | 2210.3 | 2348.4 | 2003.4 | 2326.8 |
MMBench-ENtest | 81.7 | - | - | 83.0 |
MMBench-CNtest | 81.2 | - | - | 80.5 |
MMBench-V1.1test | 79.4 | 78.0 | 76.0 | 80.7 |
MMT-Benchtest | - | - | - | 63.7 |
MMStar | 61.5 | 57.5 | 54.8 | 60.7 |
MMVetGPT-4-Turbo | 54.2 | 60.0 | 66.9 | 62.0 |
HallBenchavg | 45.2 | 48.1 | 46.1 | 50.6 |
MathVistatestmini | 58.3 | 60.6 | 52.4 | 58.2 |
MathVision | - | - | - | 16.3 |
视频基准测试
基准 | Internvl2-8B | LLaVA-OneVision-7B | MiniCPM-V 2.6 | Qwen2-VL-7B |
---|---|---|---|---|
MVBench | 66.4 | 56.7 | - | 67.0 |
PerceptionTesttest | - | 57.1 | - | 62.3 |
EgoSchematest | - | 60.1 | - | 66.7 |
Video-MMEwo/w subs | 54.0/56.9 | 58.2/- | 60.9/63.6 | 63.3/69.0 |
使用要求
Qwen2-VL 的代码已包含在最新的 Hugging Face Transformers 中,建议您通过以下命令从源代码构建:
pip install git+https://github.com/huggingface/transformers
避免出现以下错误:
KeyError: 'qwen2_vl'
快速入门
我们提供了一个工具包,帮助您更方便地处理各种类型的视觉输入,支持 base64、URLs 和交错的图像与视频。安装命令如下:
pip install qwen-vl-utils
以下是如何使用 transformers 和 qwen_vl_utils 的代码示例:
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
from modelscope import snapshot_download
model_dir = snapshot_download("qwen/Qwen2-VL-7B-Instruct")
# 默认:在可用设备上加载模型
model = Qwen2VLForConditionalGeneration.from_pretrained(
model_dir, torch_dtype="auto", device