【中文视觉语言模型+本地部署 】23.08 阿里Qwen-VL:能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存+)

本文介绍了阿里开发的Qwen-VL视觉语言模型,它结合了大语言模型和视觉特征编码器,支持多语言对话、图片理解、文本识别和定位。文章详细讲解了模型的结构、功能、本地部署步骤以及训练过程,包括预训练、多任务微调和指令微调。同时提到了Qwen-VL-Plus和Qwen-VL-Max的商业版本特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

项目主页:https://github.com/QwenLM/Qwen-VL
通义前问网页在线使用——(文本问答,图片理解,文档解析):https://tongyi.aliyun.com/qianwen/
论文v3. : 一个全能的视觉语言模型
23.10 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

相关博客1张图片+3090显卡微调Qwen-VL视觉语言大模型(仅做演示、效果还需加大数据量)

Qwen-VL-Chat 部分示例:支持多个图像输入、多轮对话、文本阅读、定位、细粒度识别和理解能力
在这里插入图片描述

一、Qwen-VL简介

Qwen-VL 是阿里基于语言模型Qwen-7B(LLMs),研发的大规模视觉语言模型(Large Vision Language Model, LVLM

Qwen-VL = 大语言模型(Qwen-7B) + 视觉图片特征编码器(Openclip’s ViT-bigG) + 位置感知视觉语言适配器(可训练Adapter)+约15亿训练数据+多轮训练

功能上:

  1. 支持多语言,特别是中英文对话
  2. 支持多个图像输入
  3. 中英双语的长文本识别
  4. 对图片中物体定位 :能够确定与给定描述相对应的具体区域(也称 grounding)
  5. 相对其他视觉模型,进行对图片更多细节识别和理解

在这里插入图片描述

二、本地部署

下载项目到本地,也可手动下载

git clone https://github.com/QwenLM/Qwen-VL.git

2.1 基础环境安装

根据自己显卡驱动,在pytorch官方选择对应的版本: https://pytorch.org/get-started/previous-versions/

conda create -n  qwen-vl  python=3.10  -y

conda activate qwen-vl
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=11.8 -c pytorch -c nvidia

2.1.1 其他依赖


conda activate qwen-vl
cd Qwen-VL
pip install -r  requirements.txt

2.1.2 使用modelscope模型

https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

pip install modelscope -U

2.2 实际测试 (运行后自动下载模型)

启动命令 --server-name 0.0.0.0 表示可局域网访问,输入ip

python web_demo_mm.py --server-name 0.0.0.0

2.2.1 下载模型界面 (约20G)

在这里插入图片描述

2.2.2 启动测试界面

在这里插入图片描述

2.2.3 实测,对图表理解并求和

求和上传图中某一列。
在这里插入图片描述

三、如何训练

阶段一:普通预训练 (pretraining)
14亿大规模、弱标记、网络爬取的图像-文本对(其中3.18亿**中文**文本)

阶段二: 多任务任务微调 (得到Qwen-VL)
约1亿数据,7大任务,图片题词,视觉问答,位置标注、OCR等任务

阶段三: 指令微调(增强对话能力) (训练后得到Qwen-VL-Chat)
将简单的文本图像对,通过手动注释、模型生成和策略串联构建**35W**对话数据
训练过程中混合了多模态和纯文本对话数据,以确保模型在对话能力方面的通用性
在这里插入图片描述

预训练阶段(Pre-training)

数据集从50亿数据中清洗得到14亿数据,其中中文约22.7%,3亿左右

数据集清理标注

  1. 删除纵横比过大的对
  2. 删除图像太小的对
  3. 删除剪辑分数过苛刻的对(特定于数据集)
  4. 删除包含非英语或非汉字的文本对
  5. 删除包含表情符号字符的文本对
  6. 删除文本长度过短或太长的对
  7. 清理文本的 HTML 标记部分
  8. 用某些不规则模式清理文本

在这里插入图片描述

多任务预训练 (Multi-task Pre-training)

约1亿数据,7大任务,图片题词,视觉问答,位置标注、OCR等任务
在这里插入图片描述

训练数据格式 (Data Format of Multi-Task Pre-training)

训练时,黑色文本作为前缀序列,没有损失,蓝色文本作为带有损失的地面真实标签。
在这里插入图片描述

指令微调

训练数据格式

为了更好地适应多图像对话和多个图像输入,我们在不同的图像之前添加了字符串“Picture id:”,其中 id 对应于图像输入对话的顺序。在对话格式方面,我们使用 ChatML (Openai) 格式构建我们的指令调优数据集,其中每个交互的语句都标有两个特殊标记(<im_start> 和<im_end>)以促进对话终止。
在这里插入图片描述

附录

有哪些版本?(商业版本)

模型名模型简介
Qwen-VL-Plus通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。
Qwen-VL-Max通义千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。
### LLaMA-Factory与Qwen2-VL 2B模型概述 #### 关于LLaMA-Factory LLaMA-Factory是一个强大的工具包,旨在帮助开发者轻松地进行大规模预训练语言模型的微调工作。该平台不仅简化了环境搭建过程,还提供了详细的指南来指导用户完成从数据准备到模型评估的一系列操作[^4]。 对于希望基于现有大型多模态模型开展研究或开发工作的团队来说,LLaMA-Factory无疑提供了一个理想的解决方案。它支持多种类型的自定义调整选项,使得即使是没有深厚技术背景的人也能够快速入门并有效利用这些先进的AI能力。 #### Qwen2-VL 2B模型特性 Qwen2-VL 2B是一款由阿里巴巴推出的大规模多模态预训练模型,在视觉理解和自然语言处理方面表现出色。这款模型能够在理解图像内容的同时解析文本信息,从而实现更加复杂的应用场景下的交互体验[^1]。 具体而言,Qwen2-VL 2B具备以下特点: - **跨领域适应性强**:无论是用于医疗诊断辅助还是其他行业特定的任务,都能够展现出良好的泛化性能; - **易于获取**:除了可以在魔塔社区找到之外,Hugging Face平台上也有官方发布的版本可供下载; - **高效能表现**:得益于其优化后的架构设计以及高效的推理算法,即便是在资源有限的情况下依然可以保持较高的运行效率; #### 微调实践案例分享 有实际项目展示了如何借助LLaMA-Factory成功完成了针对Qwen2-VL 2B的基础之上构建专门面向医疗服务领域的增强版多模态大模型的工作流程。整个过程中涉及到了对原始模型结构的选择、训练参数设定等多个重要环节,并最终实现了预期目标——即提高了特定应用场景下预测准确性的同时降低了错误率[^2]。 此外,还有其他实例证明采用LoRA(Low-Rank Adaptation)方法来进行此类大型预训练模型的小样本量条件下的精细化调节同样可行且效果显著[^3]。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾小蛙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值