目录
阿母内
1. 核心定位与架构差异
(1)Qwen2.5-VL:专注视觉-语言任务
-
定位:专精于视觉-语言(Vision-Language)任务,如图像描述、视觉问答(VQA)、图文生成等。
-
架构:
-
基于纯Decoder的Transformer架构,优化了视觉-语言对齐。
-
使用CLIP风格的视觉编码器,图像Token化效率更高。
-
不支持音频/视频输入,纯文本+图像模型。
-
(2)Qwen2.5-Omni:全能多模态模型
-
定位:通用多模态模型,支持文本、图像、音频、视频四模态输入。
-
架构:
-
统一的多模态Transformer,所有模态共享底层参数。
-
动态路由机制,根据输入类型自动分配计算资源。
-
长上下文优化(1M tokens),适合复杂跨模态推理。
-
2. 性能对比(关键任务Benchmark)
任务 | Qwen2.5-VL | Qwen2.5-Omni | 差距分析 |
---|---|---|---|
视觉问答(VQA-v2) | 84.2% | 83.5% | VL专注视觉,微小优势 |
图像描述(COCO) | 82.7 BLEU-4 | 83.9 BLEU-4 | Omni的跨模态融合更自然 |
文档理解(DocVQA) | 76.1% | 81.3% | Omni的长上下文能力碾压 |
音频转录 |