VLM 系列——Qwen2 VL——论文解读——前瞻（源码解读）

TigerZ*

已于 2024-09-11 10:38:00 修改

阅读量554

点赞数

分类专栏： AIGC算法文章标签： AIGC 人工智能 transformer 计算机视觉图像处理

于 2024-09-10 17:28:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012863603/article/details/142103878

版权

AIGC算法专栏收录该内容

37 篇文章 17 订阅 ¥89.90 ¥99.00

订阅专栏

一、概述

1、是什么

是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器+LLM形式（可以认为没有任何投射层）。比较创新的是图像缩放方式+3D LLM位置编码+（预估后面的训练方式也不太一样）。能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、agent、高清图理解（代码编写和debug论文暂时未提）。Qwen2-VL-2B可以轻松地在现代手机上本地进行推理。

2、亮点

*大尺寸图：读懂不同分辨率和不同长宽比的图片，在DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；

*视频理解：理解20分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；

*智能体：具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

TigerZ* 你点滴支持，我持续创作，羞羞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。