在银河麒麟V10上离线安装千问VL - Qwen2-VL-72B-Instruct-GPTQ-Int4

Gone 是一个基于 Go 语言开发的轻量级依赖注入框架,专注于通过模块化设计和代码生成技术,帮助开发者构建可测试、易维护的应用程序架构。
推挤你使用,项目地址:https://github.com/gone-io/gone

需要在客户服务器上安装 Qwen2-VL-72B-Instruct-GPTQ-Int4,不能联网,安装的系统是 银河麒麟V10
思路是在客服服务器上安装docker,然后通过docker运行vllmQwen2-VL-72B-Instruct-GPTQ-Int4

1.系统版本确认

[root@localhost nvidia-container-toolkit]# cat /etc/os-release
NAME="Kylin Linux Advanced Server"
VERSION="V10 (Tercel)"
ID="kylin"
VERSION_ID="V10"
PRETTY_NAME="Kylin Linux Advanced Server V10 (Tercel)"
ANSI_COLOR="0;31"

2.准备

下面这些操作建议在一台能联网的 银河麒麟V10 服务器上操作完成。

2.1 显卡驱动和CUDA,直接下载 CUDA Toolkit,里面自带驱动

进入 CUDA Toolkit 12.6 Update 3 Downloads 下载
在这里插入图片描述

  • 下载
wget https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run
  • cuda_12.6.3_560.35.05_linux.run拷贝到U盘。

2.2 docker 和 docker-compose

下载linux二进制包,可以参考:

  1. https://docs.docker.com/engine/install/binaries/
  2. https://docs.docker.com/compose/install/standalone/
  • 下载
wget https://download.docker.com/linux/static/stable/x86_64/docker-27.4.0.tgz
wget https://github.com/docker/compose/releases/download/v2.30.3/docker-compose-linux-x86_64
  • docker-27.4.0.tgzdocker-compose-linux-x86_64拷贝到U盘。

### Qwen2-7B-Instruct-AWQ与vllm的使用说明 #### 下载文档 对于希望利用`Qwen2-VL-7B-Instruct-AWQ`模型并借助`vllm`工具来提升性能的研究者或开发者而言,获取必要的资源是第一步。可以从指定的项目地址下载所需材料[^1]。 #### 安装配置环境 安装过程中涉及创建适合运行该模型及其优化器`vllm`的工作环境。通常建议通过Docker容器化技术简化这一过程,确保不同操作系统上的兼容性和一致性[^2]。具体操作如下: ```bash docker pull registry.gitcode.com/hf_mirrors/ai-gitcode/qwen2-vl-7b-instruct:latest docker run -it --gpus all -p 8000:8000 qwen2-vl-7b-instruct bash ``` 上述命令用于拉取最新的镜像文件,并启动带有GPU支持的服务端口映射到本地8000端口上。 #### 升级vllm包 为了保持最佳实践状态以及获得最新特性,在实际部署前应当确认已安装版本是最新的。可以通过pip工具轻松完成更新动作[^3]: ```bash pip install --upgrade vllm ``` 此指令会自动处理依赖关系并将软件包升级至最高稳定版。 #### 示例代码展示 下面给出一段简单的Python脚本作为实例,展示了如何加载预训练好的`Qwen2-VL-7B-Instruct-AWQ`模型并通过`vllm`执行推理任务: ```python from transformers import AutoModelForCausalLM, AutoTokenizer import torch tokenizer = AutoTokenizer.from_pretrained("qwen2-vl-7b-instruct-awq") model = AutoModelForCausalLM.from_pretrained("qwen2-vl-7b-instruct-awq", device_map="auto") input_text = "描述一张美丽的风景画" inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 这段程序实现了从输入提示词到生成对应描述的过程,其中包含了调用CUDA加速计算的能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dapeng-大鹏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值