qwenvl 以及qwenvl 2 模型架构理解

m0_74824755

于 2025-03-10 12:26:23 发布

阅读量661

点赞数 20

分类专栏：面试学习路线阿里巴巴文章标签： java

本文链接：https://blog.csdn.net/m0_74824755/article/details/146150583

版权

qwenvl 模型理解：

参考资料：
https://qwenlm.github.io/zh/blog/qwen2-vl/
https://github.com/QwenLM/Qwen2-VLtab=readme-ov-file
https://qwenlm.github.io/zh/blog/qwen2-vl/
论文：
qwenvl https://arxiv.org/abs/2308.12966
Qwen2-VL https://arxiv.org/pdf/2409.12191

最近正好在做qwenvl 总结记录一下qwenvl 以及qwenvl2模型的架构，本文主要聚焦模型架构和训练技术，其他内容后面有涉及再补

注意：要了解qwenvl 2需要先理解qwenvl ，因为qwenvl 2文章明确提到qwenvl 2的架构是和qwenvl保持一致的

由于我主要关注模型架构，因此读论文的时候读完摘要直接看model architecture

qwenvl

架构图

在这里插入图片描述

qwenvl架构很简单，就是三个部分：

QwenLM：作为Qwen-VL模型的基础组件，这个部分采用了一个大型语言模型，其初始权重来自于预训练的Qwen-7B模型。
如果大家看一下代码的话，这个模型的结构和经典的llamma等大模型没什么区别
ViT&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_74824755

关注关注

20
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Qwen VL架构及其原理[多模态大模型]、OpenCLIP

强化学习曾小健

07-08

3049

AnswerQwen-VL是一种多模态大模型，旨在同时处理和理解文本与图像信息。

llamafactory finetune VLM qwenVL2-7B多模态意图识别

xcy8185083的博客

01-02

822

总结：1.对图片使用paddle-OCR生成observation提点不多2.finetuning_type: lora lora_target: all 相比于 finetuning_type: full，即Lora微调相比SFT全调差很多，有资源SFT选SFT吧。3.GUI图片页面分类使用(crop,masaic)等图像增强方式可以提高分类准确率，但后期过拟合了。训练集全预测正确，测试集反而分数降低。

参与评论您还未登录，请先登录后发表或查看评论

【LLM多模态】Qwen-VL模型架构和训练流程

发现问题，并解决问题，批判性思维

04-25

1万+

Qwen-VL模型的整体网络架构包括以下三个组件：大型语言模型（Large Language Model）： - 作用：作为Qwen-VL模型的基础组件，这个部分采用了一个大型语言模型，其初始权重来自于预训练的Qwen-7B模型。 - 来源：Qwen-VL的大型语言模型使用了来自Qwen-7B模型的预训练权重。视觉编码器（Visual Encoder）： - 作用：视觉编码器采用了Vision Transformer（ViT）架构，用于处理输入图像并生成一组图像特征。在训练和推理过程中，将输入图像调

详解Qwen VL的架构

AI生成曾小健3

12-12

2335

强大的性能：在标准测试中表现优异。多语言支持：天然支持多种语言的对话。细粒度识别：相较于其他模型，Qwen VL支持448分辨率，提升了细节识别能力。灵活性：支持多种输入形式，如图像、文本及检测框，并能生成相应的输出。通过以上架构设计与工作原理，Qwen VL展现了其在多模态任务中的强大能力，有效处理复杂的文本与图像信息，为未来的应用提供了广阔的前景。分享改写相关事件事件名称事件时间事件概述Qwen-VL的发布与应用2023-09-24至2024-11-01。

代码角度，深度解析 Qwen2-VL 模型结构

Python_cocola的博客

09-12

5894

快速开始，接下来我会简单说说 Qwen2-VL 整体结构当中的几个关键的细节。帮助大家快速理解Qwen2-VL结构和其他网络结构的不同。

多模态大模型Qwen-VL和MiniCPM-Llama3-V-2_5初体验

HUSTHY的博客

08-19

3150

QwenVL这个号称是国内最好的多模态大模型，阿里通义千问系列多模态大模型之一。QwenVL系列有3个大模型，分别是Qwen-VL-Chat&Qwen-VL-Plus & Qwen-VL-Max，其中Qwen-VL-Chat开源了代码以及模型权重，而Qwen-VL-Plus & Qwen-VL-Max这两个效果更加的模型，并未开源，但是可以通过🤗🤖网页端APP和API访问，而我们重点关注的是开源的Qwen-VL-Chat，后文简称QwenVL。

VLMEvalKit 评测实践:InternVL2 VS Qwen2VL

m0_55303420的博客

09-16

3448

多模态技术的突破，正在改变我们理解和交互世界的方式。无论是强大的感知能力、复杂的推理分析，还是图文融合的创新应用，InternVL2 与 Qwen2-VL 展现了大模型的无限可能。

Vllm进行Qwen2-vl部署（包含单卡多卡部署及爬虫请求）

热门推荐

sherlockMa的博客

11-01

1万+

使用vLLM部署Qwen2-VL，包含单卡部署、多卡部署、爬虫requests发送请求

探索Qwen-VL：一个全栈式的视觉语言模型开发框架

gitblog_00056的博客

04-25

587

探索Qwen-VL：一个全栈式的视觉语言模型开发框架 Qwen-VL The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud. ...

【多模态大模型教程】在自定义数据上使用Qwen-VL多模态大模型的微调与部署指南

python1234_的博客

06-18

6435

提供了这个脚本供用户实现在自己的数据上进行微调的功能，以接入下游任务。此外还提供了shell脚本减少用户的工作量。这个脚本支持 DeepSpeed 和 FSDP。

MLLM（二）| 阿里开源视频理解大模型：Qwen2-VL

wshzd的博客

09-05

5092

从六个关键维度评估模型的视觉能力：复杂的大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、一般场景问答、视频理解和基于代理的交互。此功能为更直观和身临其境的交互铺平了道路，Qwen2-VL 不仅充当观察者，而且是我们视觉体验的积极参与者。此外，更小的 2B 模型针对潜在的移动部署进行了优化。Qwen2-VL 现在拥有改进的对象识别功能，超越了植物和地标，可以理解场景中多个对象之间的复杂关系。在 7B 模型上，保留了对图像、多图像和视频输入的支持，以更具成本效益的模型大小提供有竞争力的性能。

【机器学习】阿里Qwen-VL：基于FastAPI私有化部署你的第一个AI多模态大模型

人工智能领域博客

06-17

1万+

本文首先在引言中强调了一下OpenAI兼容API的重要性，希望引起读者重视，其次介绍了Qwen-VL的原理与模型结构，最后简要讲了下FastAPI以及搭配组件，并基于FastAPI封装了OpenAI兼容API的Qwen-VL大模型服务端接口，并给出了客户端实现。本文内容在工作中非常实用，希望大家能有所收获并与我交流。期待您的关注+三连

1张图片+3090显卡微调Qwen-VL视觉语言大模型（仅做演示、效果还需加大数据量）

进一寸有一寸的欢喜

04-23

4896

一张图微调qwen-vl

TensorFlow相关组件的安装

AAI666666的博客

01-11

2571

TensorFlow相关组件的安装

多模态模型基础

谁怕平生太急

06-04

1952

ViT的位置编码：https://blog.csdn.net/qq_44166630/article/details/127429697QwenVL发布：https://qwenlm.github.io/zh/blog/qwen-vl/

AI Agent开发第38课-QwenVL 2.5-本地安装编译布署全教程

打造全国最全的AI Agent开发知识领域的博客

03-02

619

DeepSeek开源后我国又开源了一个震撼大模型，QwenVL2.5，这是一个多模态的模形，它可以认图、识图、更能作图。本地安装也支持7B和3B两种模式，但是由于它不是ollama或者是LM Studio一类的傻瓜式安装，因此网上几无安装教程，这也是本教程存在的原因。本教程会从头到尾每一步教授如何在本地安装布署QwenVL2.5模型。

国产开源最强？Qwen2-VL强势发布，效果实测！

zero的博客

09-01

2576

qwenvl--flux clip复现