Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型的特点包括:
- 强大的性能:在四大类多模态任务的标准英文测评中(Zero-shot Captioning/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果;
- 多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;
- 多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;
- 首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;
- 细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。
第一、环境准备
-
需要的工具网站
- anaconda的官方脚本库
- HF-Mirror 国内的Hugging Face的镜像
- 魔搭社区 中内的模型发布平台
-
conda的源的国内镜像
- 清华的源,个人感觉稳定,阿里的不能访问原因未知。
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
第二、安装环境
- anaconda的安装,建议安装最新的,旧的有可能会有兼容问题。下载后运行指令。
curl -o https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Linux-x86_64.sh #下载完成后,运行指令 bash Anaconda3-2024.06-1-Linux-x86_64.sh
- 创建conda的环境
conda create -n qwenvl python=3.10
- 激活创建的环境
conda activate qwenvl
- 安装运行环境, 这里的指令,请去 PyTorch 这里自己去配置。根据自己的环境。
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
- 第4步如果卡死,显示 Solving environment: \ 一直不动的情况。请删除conda,重新安装我是先安装的2019版本,改最新版后就可以了。其它解决方案:
conda config --remove channels conda-forge conda config --add channels conda-forge conda config --set channel_priority strict
然后再重新安装。
- 创建模型源码放置的位置,然后后下载源码
git clone https://github.com/QwenLM/Qwen-VL.git #下载完成后,进入源码的目录 cd Qwen-VL
- 安装模型的依赖
pip install -r requirements.txt pip install -r requirements_openai_api.txt pip install -r requirements_web_demo.txt
- 运行demo的脚本
python web_demo_mm.py
- 运行会直接下载模型,也可以直接先下载到本地,再运行上面的脚本,但要改脚本里的模型位置。
- 推理请使用GPU,使用CPU推理,5分钟才出答案。我的配置CPU:2*6330,内存:128G,显卡A5000.