这篇论文介绍了Qwen2-VL系列,这是之前Qwen-VL模型的一个先进升级版。论文的主要创新点包括:
-
Naive Dynamic Resolution机制:
- 允许模型动态处理不同分辨率的图像,将其转换为不同数量的视觉tokens。
- 使模型能生成更高效和准确的视觉表示,更接近人类的感知过程。
-
Multimodal Rotary Position Embedding (M-RoPE):
- 能有效融合文本、图像和视频中的位置信息。
- 将旋转嵌入分解为时间、高度和宽度三个组件,更好地建模多模态输入的位置信息。
-
统一的图像和视频处理范式:
- 采用混合训练方案,同时处理图像和视频数据。
- 使用3D卷积来处理视频输入,允许模型处理3D管道而不是2D图像块。
-
规模探索:
- 探索了大规模视觉语言模型(LVLMs)的缩放规律。
- 提供了2B、8B和72B参数的不同规模模型版本。
-
多语言支持:
- 支持多种语言的图像内容理解,包括英语、中文、大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
-
长视频理解:
- 能够理解20分钟以上的长视频。
-
强大的代理能力:
- 具有先进的推理和决策能力,可以与移动设备、机器人等集成,实现基于视觉输入和文本指令的自主操作。
-
训练方法改进:
- 采用三阶段训练方法,包括ViT训练、全参数训练和LLM指令微调。
- 使用了大规模多样化的预训练数据集,包括图像-文本对、