Qwen2-VL
https://github.com/QwenLM/Qwen2-VL
结构:
整体:6.75 亿个参数的 Vision Transformer (ViT) (Dosovitskiy et al., 2021)+ Qwen2
预处理阶段:
- 朴素动态分辨率支持:Naive Dynamic Resolution 机制,使模型能够将不同分辨率的图像动态处理成不同数量的视觉标记。
- 不同分辨率的图像被打包到一个序列中,并控制打包长度以限制 GPU 内存的使用。此外,为了减少每张图像的视觉标记,在 ViT 之后采用一个简单的 MLP 层将相邻的 2 × 2 个标记压缩成一个标记,特殊的 <|vision_start|> 和 <|vision_end|> 标记放置在压缩的视觉标记的开头和结尾。因此,分辨率为 224 × 224 的图像,使用 patch_size=14 的 ViT 编码,在进入 LLM 之前将被压缩为 66 个标记。
编码阶段:
主要工作集中在视觉编码器:
- 位置嵌入分解到零件(2D 旋转位置嵌入 (RoPE)使模型能够更好地捕获不同空间尺度