在银河麒麟V10上离线安装千问VL - Qwen2-VL-72B-Instruct-GPTQ-Int4

Gone 是一个基于 Go 语言开发的轻量级依赖注入框架,专注于通过模块化设计和代码生成技术,帮助开发者构建可测试、易维护的应用程序架构。
推挤你使用,项目地址:https://github.com/gone-io/gone

需要在客户服务器上安装 Qwen2-VL-72B-Instruct-GPTQ-Int4,不能联网,安装的系统是 银河麒麟V10
思路是在客服服务器上安装docker,然后通过docker运行vllmQwen2-VL-72B-Instruct-GPTQ-Int4

1.系统版本确认

[root@localhost nvidia-container-toolkit]# cat /etc/os-release
NAME="Kylin Linux Advanced Server"
VERSION="V10 (Tercel)"
ID="kylin"
VERSION_ID="V10"
PRETTY_NAME="Kylin Linux Advanced Server V10 (Tercel)"
ANSI_COLOR="0;31"

2.准备

下面这些操作建议在一台能联网的 银河麒麟V10 服务器上操作完成。

2.1 显卡驱动和CUDA,直接下载 CUDA Toolkit,里面自带驱动

进入 CUDA Toolkit 12.6 Update 3 Downloads 下载
在这里插入图片描述

  • 下载
wget https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run
  • cuda_12.6.3_560.35.05_linux.run拷贝到U盘。

2.2 docker 和 docker-compose

下载linux二进制包,可以参考:

  1. https://docs.docker.com/engine/install/binaries/
  2. https://docs.docker.com/compose/install/standalone/
  • 下载
wget https://download.docker.com/linux/static/stable/x86_64/docker-27.4.0.tgz
wget https://github.com/docker/compose/releases/download/v2.30.3/docker-compose-linux-x86_64
  • docker-27.4.0.tgzdocker-compose-linux-x86_64拷贝到U盘。

### 使用 Qwen2-7B-Instruct-GPTQ-INT4 模型 #### 特点和应用场景 Qwen2-7B-Instruct-INT4 是阿里云推出的一个量化模型,拥有 70 亿个参数并经过指令微调,使其能更有效地理解与执行多种任务。此模型采用 GPTQ 方法进行了 INT4 的量化处理,在保持性能的同时显著降低了计算资源需求[^1]。 这种配置使得该模型特别适合于那些希望利用大型语言模型的强大功能而又受限于硬件条件的应用场景,比如小型服务器上的在线答系统、移动设备端的文字辅助工具等。 #### 安装依赖库 为了能够在本地环境中顺利部署并使用上述提到的大规模多模态预训练模型——Qwen2-7B-Instruct-Int4,需按照如下命令依次安装所需的Python包: ```bash pip install opencv-python pip install uvicorn pip install fastapi pip install git+https://github.com/huggingface/transformers.git pip install qwen-vl-utils pip install torchvision pip install python-multipart pip install 'accelerate>=0.26.0' pip install optimum pip install auto-gptq ``` 注意:由于 `optimum` 库可能会覆盖之前已有的 `transformers` 版本,因此建议最后再单独更新一次 `transformers` 或者确保其版本是最新的稳定版[^2]。 如果遇到 CUDA 扩展未安装题,则可以通过指定特定版本来解决这个题: ```bash pip install torch==2.2.1 pip install torchvision==0.17.1 pip install auto-gptq==0.7.1 ``` 这些操作可以有效避免因软件兼容性而导致的错误消息 "CUDA extension not installed."[^3]。 #### 推理过程示例 下面给出一段简单的 Python 脚本来展示如何加载已经准备好的 Qwen2-7B-Instruct-GPTQ-INT4 并进行基本的文本生成任务: ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("path_to_model") # 替换为实际路径 model = AutoModelForCausalLM.from_pretrained("path_to_model", device_map="auto") input_text = "你好" inputs = tokenizer(input_text, return_tensors='pt').to('cuda') with torch.no_grad(): outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 这段代码展示了从加载模型到输入提示词直至最终获得输出结果的一系列流程。需要注意的是,“path_to_model” 需要被替换为你所下载或克隆下来的 Qwen2-7B-Instruct-GPTQ-INT4 文件夹的具体位置。 对于更加详细的指导以及更多高级特性的介绍,推荐查阅 Hugging Face 上提供的官方文档或是 GitHub 项目页面内的 README.md 文件,那里包含了更为详尽的操作指南和技术细节说明。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dapeng-大鹏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值