阿里最新发布Qwen2-VL:看视频的AI到底能干些什么惊人的事?

68747470733a2f2f7169616e77656e2d7265732e6f73732d616363656c65726174652d6f766572736561732e616c6979756e63732e636f6d2f5177656e322d564c2f7177656e32564c5f6c6f676f2e706e67.png

Qwen2-VL

阿里云最新推出的 Qwen2-VL 模型,就像是给 AI 装上了一双火眼金睛,不仅能看懂图片,还能理解长达20分钟的视频!从官方给出的数据来看 Qwen2-VL 的参数还能比肩 GPT-4o,那么 Qwen2-VL 到底强在哪些地方呢?本文继续带你了解。

Qwen2-VL

image.png

视觉语言模型 Qwen2-VL

想象一下,有一个 AI 助手,它不仅能和你聊天,还能"看"懂你给它的任何图片和视频。这不是科幻电影里的场景,而是阿里云刚刚推出的 Qwen2-VL 模型带来的现实。作为新一代视觉语言模型,Qwen2-VL在图像理解、视频分析和多语言处理方面都展现出了惊人的能力。

Qwen2-VL 目前一共三个版本:

Qwen2-VL-72B:这是家族中的大哥,拥有720亿参数,是真正的 AI 巨人。它在各项测试中表现出色,甚至在某些任务上超越了 GPT-4o 和Claude3.5-Sonnet等知名闭源模型。

Qwen2-VL-7B:这是中庸之选,有70亿参数。它保留了对图像、多图和视频的处理能力,在性能和成本之间找到了绝佳平衡点。

Qwen2-VL-2B:这是家族中的小弟,仅有20亿参数。别小看它,这个"袖珍版"是为移动设备量身打造的,在图像、视频和多语言理解方面表现出色。

Qwen2-VL架构组成

image.png

Qwen2-VL 的模组架构

与以前不同,Qwen2-VL 可以处理任意图像分辨率,将它们映射到动态数量的视觉标记中,从而提供更接近人类的视觉处理体验。多模态旋转位置嵌入会将位置嵌入分解到零件中,以捕获 1D 文本、2D 视觉和 3D 视频位置信息,从而增强其多模态处理能力。

Qwen2-VL 的主要功能有:

1 :SoTA对各种分辨率和比例的图像的理解:Qwen2-VL 在视觉理解基准上达到了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA 等。

2 :理解 20min+ 视频:Qwen2-VL 具备在线推流功能,通过高质量的视频问答、对话、内容创作等方式,可以理解 20 分钟以上的视频。

3:可以操作您的手机、机器人等的代理:Qwen2-VL 具有复杂的推理和决策能力,可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作。

4:多语言支持:为了服务全球用户,除了英文和中文外,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

性能对比

image.png

Qwen2-VL 官方性能对比展示

Qwen2-VL 在多项权威测试中都展现出了惊人的实力。在 MathVista、DocVQA、RealWorldQA和MTVQA等视觉理解基准测试中,Qwen2-VL  都取得了全球领先的成绩。

特别值得一提的是,在72B版本的测试中,Qwen2-VL 在多项指标上甚至超越了 GPT-4o 这样的 AI 巨头。虽然在综合性的大学题目上还有一定差距,但在文档理解等特定任务上,Qwen2-VL 展现出了明显优势。

即使是参数较少的7B版本,其性能也达到了同等规模模型中的顶尖水平。特别是在文档理解和多语言文字理解方面,它的表现尤为出色。

实操表现

image.png

Qwen2-VL 实操展示

Qwen2-VL 在实际应用中的表现同样令人印象深刻。在文档理解方面,它能准确提取复杂表格中的信息,甚至能理解手写笔记。

在视频分析方面,Qwen2-VL 的表现也非常的不错。外网目前有一个火爆了的视频,视频中的 Qwen2-VL 可以实时反应这个视频中的内容,包括物品识别、计算视频中的数学题等等。

image.png

外网对 Qwen2-VL 的测试

目前外网很多用户都在对Qwen2-VL进行测试,基本上是一致的好评,感觉Qwen2-VL还有更多的玩法等待用户们去挖掘,从这也能看出Qwen2-VL的发布是十分成功的。不知道你们觉得Qwen2-VL所带来的效果如何呢?

 有关厚德云

厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值