【Qwen2-VL】3分钟带你快速了解阿里多模态大模型Qwen2-VL

刘承卓

已于 2024-08-31 11:16:43 修改

阅读量979

点赞数 15

分类专栏： LLM+RAG 文章标签：语言模型 AIGC 开源实时音视频

于 2024-08-31 11:09:37 首次发布

本文链接：https://blog.csdn.net/m0_46686599/article/details/141748928

版权

LLM+RAG 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Qwen2-VL

1.节能省流

通义千问实验室在8.30日发布了最新一代的视觉语言模型：Qwen2-VL ，开源了 Qwen2-VL-2B 和 Qwen2-VL-7B，并发布了 Qwen2-VL-72B 的 API，开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。Qwen2-VL 基于 Qwen2 打造，相比 Qwen-VL，它具有以下特点：

1.读懂不同分辨率和不同长宽比的图片

Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。

2.理解20分钟以上的长视频

Qwen2-VL 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。

3.能够操作手机和机器人的视觉智能体

借助复杂推理和决策的能力，Qwen2-VL 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。

4.多语言支持

为了服务全球用户，除英语和中文外，Qwen2-VL 现在还支持理解图像中的多语言文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

2.模型性能

六个方面来评估模型的视觉能力：综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。
整体来看， 72B 规模的模型在大部分的指标上都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，特别是在文档理解方面优势明显，仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。
在这里插入图片描述

在 7B 规模上，同样支持图像、多图、视频的输入，在更经济的规模上也实现了有竞争力的性能表现，特别是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平。
除此之外，还提供了一个更小的 2B 规模的模型，以此支持移动端的丰富应用。它具备完整图像视频多语言的理解能力，性能强劲，特别在视频文档和通用场景问答相较同规模模型优势明显。

3.干说不行，拿出来溜溜

图像信息提取与组织能力展示

User：将图中的每日的最高气温和最低气温整理成表格。
在这里插入图片描述

Qwen2-VL：以下是图中每日的最高气温和最低气温整理成的表格：
在这里插入图片描述

希望这对你有帮助！

视频理解与实时聊天方面能力我就不展示了！

说说缺点

仍然存在一些局限性，比如无法从视频中提取音频、知识仅更新至 2023 年 6 月等。

4.说说模型架构方面

在这里插入图片描述

延续了 Qwen-VL 中 ViT 加 Qwen2 的串联结构，在三个不同尺度的模型上，我们都采用 600M 规模大小的 ViT，并且支持图像和视频统一输入.

重大改进

1.Qwen2-VL 在架构上的一大改进是实现了对原生动态分辨率的全面支持
与上一代模型相比，Qwen2-VL 能够处理任意分辨率的图像输入，不同大小图片被转换为动态数量的 tokens，最小只占 4 个 tokens。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性，更是模拟了人类视觉感知的自然方式，赋予模型处理任意尺寸图像的强大能力，使其在图像处理领域展现出更加灵活和高效的表现。
2.Qwen2-VL 在架构上的另一重要创新则是多模态旋转位置嵌入（M-ROPE）
传统的旋转位置嵌入只能捕捉一维序列的位置信息，而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分，使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力，能够更好地理解和建模复杂的多模态数据。

刘承卓

关注

15
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
【Qwen2-VL】3分钟带你快速了解阿里多模态大模型Qwen2-VL

通义千问实验室在8.30日发布了最新一代的视觉语言模型：Qwen2-VL ，开源了 Qwen2-VL-2B 和 Qwen2-VL-7B，并发布了 Qwen2-VL-72B 的 API，开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性，更是模拟了人类视觉感知的自然方式，赋予模型处理任意尺寸图像的强大能力，使其在图像处理领域展现出更加灵活和高效的表现。
复制链接

扫一扫

专栏目录