Qwen-VL部署实操

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型的特点包括:

  • 强大的性能:在四大类多模态任务的标准英文测评中(Zero-shot Captioning/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果;
  • 多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;
  • 多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;
  • 首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;
  • 细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

第一、环境准备

  1. 需要的工具网站
    1. anaconda的官方脚本库
    2. HF-Mirror 国内的Hugging Face的镜像
    3. 魔搭社区 中内的模型发布平台
  2. conda的源的国内镜像
    1. 清华的源,个人感觉稳定,阿里的不能访问原因未知。
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
 conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
 conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
 conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/
 conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
 conda config --set show_channel_urls yes

第二、安装环境

  1. anaconda的安装,建议安装最新的,旧的有可能会有兼容问题。下载后运行指令。
    curl -o https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Linux-x86_64.sh
    
    #下载完成后,运行指令
    
    bash Anaconda3-2024.06-1-Linux-x86_64.sh
    
  2. 创建conda的环境
    conda create -n qwenvl python=3.10
  3. 激活创建的环境
    conda activate qwenvl
  4.  安装运行环境, 这里的指令,请去 PyTorch 这里自己去配置。根据自己的环境。
    conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
  5.  第4步如果卡死,显示 Solving environment: \ 一直不动的情况。请删除conda,重新安装我是先安装的2019版本,改最新版后就可以了。其它解决方案:
    conda config --remove channels conda-forge
    conda config --add channels conda-forge
    conda config --set channel_priority strict
    

      然后再重新安装。

  6. 创建模型源码放置的位置,然后后下载源码
    git clone https://github.com/QwenLM/Qwen-VL.git
    
    #下载完成后,进入源码的目录
    cd Qwen-VL
    
  7. 安装模型的依赖 
    pip install -r requirements.txt
    pip install -r requirements_openai_api.txt
    pip install -r requirements_web_demo.txt
  8. 运行demo的脚本 
    python web_demo_mm.py
  9. 运行会直接下载模型,也可以直接先下载到本地,再运行上面的脚本,但要改脚本里的模型位置。
  10. 推理请使用GPU,使用CPU推理,5分钟才出答案。我的配置CPU:2*6330,内存:128G,显卡A5000.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值