一、概述
1、是什么
是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器+LLM形式(可以认为没有任何投射层)。比较创新的是图像缩放方式+3D LLM位置编码+(预估后面的训练方式也不太一样)。能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解(代码编写和debug论文暂时未提)。Qwen2-VL-2B可以轻松地在现代手机上本地进行推理。
2、亮点
*大尺寸图:读懂不同分辨率和不同长宽比的图片,在DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;
*视频理解:理解20分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;
*智能体:具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环