阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话

克雷西 发自 凹非寺
来源 | 量子位

新的最强开源多模态大模型来了!

阿里Qwen2大模型家族新添多模态模型Qwen2-VL,在图像和长视频理解任务上双双取得了SOTA。

在具体的子类任务中,Qwen2-VL在大部分的指标上都达到了最优,甚至超过 GPT-4o等闭源模型。

d37abb6adda3aab32cad319807ee5471.png

在多模态能力的加持下,Qwen2-VL可以实时读取摄像头或电脑屏幕,进行文字形式的视频对话。

甚至还能作为Agent与环境进行交互,根据任务目标自主操控手机等设备。

此次发布的Qwen2共有2B、7B、72B三个版本,其中2B和7B版本已可下载并免费商用(Apache 2.0),72B则通过API提供。

目前开源代码已集成到Hugging Face Transformers、vLLM等第三方框架中。

还有不少网友都在狂cue一些知名大模型推理平台,如Groq、Ollama,希望能够早日提供支持。

0dd5a9ef187802d67a565e61287aa68f.png

下面就来一睹Qwen2-VL的表现!

会操作机械臂的多模态大模型

利用强大的多模态能力,Qwen2-VL能够操纵机械臂,进行物体的拿取、放置等操作。

还可以化身扑克牌玩家,根据识别到的场上信息和提示词描述进行“24点”游戏的决策,并且取得了胜利。

de26199bb20f93403be802da3fe73a9f.gif

还有开头所展示的,Qwen2-VL可以根据识别到的屏幕内容,结合用户需求自行操作手机在网络上进行信息检索。

当然在这些体现工具调用和Agent交互能力的复杂任务背后,基础能力也是不能落下。

比如图像识别,在物体类的识别当中,Qwen2-VL可以准确地认出花的品种。

249e1e4ed728de1af1cf5e1fc54603d2.png

另一类识别场景是文字,Qwen2-VL支持多种语言的文本提取。

甚至把16种语言混合到一张图中,Qwen2-VL不仅能判断各自的语种,也能一口气提取出全部文本。

41a42742cf0a129656a3a7d30e173010.png

手写字体和复杂的数学公式也能识别,并且上下标这种微小细节处理得非常到位。

196d67d468080ad251049158e31ea282.png

Qwen2-VL还支持多模态推理,代码和数学(包括几何)类问题,只需要传张图片就能解决。

70eeaf9fa2f1d102f569b33644f9969b.png

视频方面,Qwen2-VL最长可以对20分钟以上的视频进行内容分析,既支持总结也能对细节进行提问。

不过目前还只能分析画面,暂不支持对声音的处理。

4e292c2cc14a32fc79d38f851659141f.png

同时也支持实时视频文字对话,除了开头展示的基于摄像头的对话外,也可以读取电脑屏幕,作为对话的内容。

总之,在这些任务的背后,蕴含着Qwen2-VL不凡的综合实力。

多模态实力超GPT-4o

为了了解Qwen2-VL在各种任务上的综合表现,千问团队一共从从六个方面对其视觉能力进行了评估。

具体包括了综合类大学试题、数学试题、文档表格理解、通用场景下的问答、视频理解以及Agent能力这六种类型。

整体来看,Qwen2-72B的大部分的指标上都达到了最优,甚至超过了GPT-4o和Claude3.5-Sonnet,特别是在文档理解方面优势明显。

4f7aab63456280c6acd7b95ee9eaa5b6.png

另外在多语言测试中,MTVQA也在9种语言中的8种全面超越了GPT-4o、Claude3-Opus和Gemini Ultra这些先进闭源模型,平均成绩也是最高分。

85942876b9a520c8150187ab8fcefd0a.png

7B版本同样支持图像、多图、视频的输入,同时也达到了同等规模模型的SOTA水准。

1f1d05ec68f67c5dccc58294575b1134.png

最小的2B版本则主要为移动端设计,但麻雀虽小,却具备完整图像视频多语言的理解能力,特别在视频文档和通用场景问答相较同规模模型优势明显。

ecb4fd2a0a2f238dc7336f3d6201bbb3.png

整体上,Qwen2-VL延续了其上一代Qwen-VL中ViT加Qwen(2)的串联结构,在三个不同规模的模型上,Qwen2-VL都采用了600M规模大小的ViT,并且支持图像和视频统一输入。

为了让模型更清楚地感知视觉信息和理解视频,Qwen2-VL新增了对原生动态分辨率的全面支持

与上一代模型相比,Qwen2-VL能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的tokens,最少只需要4个。

这种设计不仅确保了模型输入与图像原始信息之间的一致性,也模拟了人类视觉感知的自然方式,让模型在图像处理任务上更加灵活高效。

bbebd27db9fbd90c6252699305f7c5e6.jpeg

Qwen2-VL在架构上的另一项创新,是多模态旋转位置嵌入(M-ROPE)。

传统的旋转位置嵌入只能捕捉一维序列的位置信息,而M-ROPE通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分。

这使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

这一创新有助于提升模型的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。

27252c8be75cc97c77b1c6a658754950.png

DEMO:
https://huggingface.co/spaces/Qwen/Qwen2-VL
项目主页:
https://qwenlm.github.io/blog/qwen2-vl/
GitHub:
https://github.com/QwenLM/Qwen2-VL

——The  End——

318728f6d70f0e7272bce760be97ed69.gif

分享

收藏

点赞

在看

8e05d6bec4881abeee027875998edb7d.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值