【Qwen2-VL】3分钟带你快速了解阿里多模态大模型Qwen2-VL

1.节能省流

通义千问实验室在8.30日发布了最新一代的视觉语言模型:Qwen2-VL ,开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,并发布了 Qwen2-VL-72B 的 API,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点:

1.读懂不同分辨率和不同长宽比的图片

Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。

2.理解20分钟以上的长视频

Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。

3.能够操作手机和机器人的视觉智能体

借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。

4.多语言支持

为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

2.模型性能

六个方面来评估模型的视觉能力:综合的大学题目数学能力文档表格多语言文字图像的理解通用场景下的问答视频理解Agent 能力
整体来看, 72B 规模的模型在大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,特别是在文档理解方面优势明显,仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。
在这里插入图片描述

在 7B 规模上,同样支持图像、多图、视频的输入,在更经济的规模上也实现了有竞争力的性能表现,特别是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平
除此之外,还提供了一个更小的 2B 规模的模型,以此支持移动端的丰富应用。它具备完整图像视频多语言的理解能力,性能强劲,特别在视频文档和通用场景问答相较同规模模型优势明显

3.干说不行,拿出来溜溜

图像信息提取与组织能力展示

User:将图中的每日的最高气温和最低气温整理成表格。
在这里插入图片描述

Qwen2-VL:以下是图中每日的最高气温和最低气温整理成的表格:
在这里插入图片描述

希望这对你有帮助!

视频理解与实时聊天方面能力我就不展示了!

说说缺点

仍然存在一些局限性,比如无法从视频中提取音频、知识仅更新至 2023 年 6 月等。

4.说说模型架构方面

在这里插入图片描述

延续了 Qwen-VL 中 ViT 加 Qwen2 的串联结构,在三个不同尺度的模型上,我们都采用 600M 规模大小的 ViT,并且支持图像和视频统一输入.

重大改进

1.Qwen2-VL 在架构上的一大改进是实现了对原生动态分辨率的全面支持
与上一代模型相比,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性,更是模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力,使其在图像处理领域展现出更加灵活和高效的表现。
2.Qwen2-VL 在架构上的另一重要创新则是多模态旋转位置嵌入(M-ROPE)
传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。

  • 15
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值