昇腾910B--本地化部署DeepSeek-R1-Distill-Llama-70B

# 910B昇腾服务器单机部署DeepSeek-R1-Distill-Llama-70B

## 部署前提
- 宿主机操作系统:Ubuntu 22.04@ascend-910b 64位
- 已安装固件与驱动
- 已安装Docker

## 模型下载
- **有网络条件**:访问 [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/tree/main) 下载模型。
- **无网络条件**:从 [ModelScope](https://modelscope.cn/models) 下载所需模型。

## 上传模型到服务器
- 文件较大(132GB),建议使用 `rsync` 命令上传至 `/mnt/data/model/DeepSeek-R1-Distill-Llama-70B`。

## 下载模型适配镜像包
- 登录昇腾社区,前往开发资源页面下载适配DeepSeek-R1-Distill-Llama-70B的镜像包。
- 根据GPU型号选择:
  - 1.0.0-800I-A2-py311-openeuler24.03-lts
  - 1.0.0-300I-Duo-py311-openeuler24.03-lts

## 启动运行容器
```bash
docker run -it -d --net=host --shm-size=1g \
    --name <container-name> \
    --device=/dev/davinci_manager \
    --device=/dev/hisi_hdc \
    --device=/dev/devmm_svm \
    --device=/dev/davinci0 \
    --device=/dev/davinci1 \
    --device=/dev/davinci2 \
    --device=/dev/davinci3 \
    --device=/dev/davinci4 \
    --device=/dev/davinci5 \
    --device=/dev/davinci6 \
    --device=/dev/davinci7 \
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
    -v /usr/local/sbin:/usr/local/sbin:ro \
    -v /path-to-weights:/path-to-weights:ro \
    mindie:1.0.0-800I-A2-py311-openeuler24.03-lts bash

注意:

<container-name>:自定义容器名称。

/path-to-weights:模型放置的实际位置。

• 如果外部服务需要调用模型API端口,需将--net=host修改为-p 18080:18080

进入容器

docker exec -it ${容器名称} bash

容器中执行

cd $ATB_SPEED_HOME_PATH

此路径包含模型的依赖文件。

服务化推理部署

• 编辑配置文件:

   vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json

• 修改以下参数:

   {
       "ipAddress": "127.0.0.1",  // 外部访问需修改为实际地址
       "managementIpAddress": "127.0.0.2",  // 外部访问需修改为实际地址
       "port": 1025,  // 自定义
       "managementPort": 1026,  // 自定义
       "metricsPort": 1027,  // 自定义
       "npuDeviceIds": [[0,1,2,3]],  // 根据显卡数量修改
       "modelName": "llama",
       "modelWeightPath": "/data/datasets/DeepSeek-R1-Distill-Llama-70B",  // 根据实际路径修改
       "worldSize": 4,  // 根据显卡数量修改
       "openAiSupport": "openai"  // 修改为本地支持
   }

启动模型服务

cd /usr/local/Ascend/mindie/latest/mindie-service/bin
./mindieservice_daemon

等待安装完成,直至显示daemonset success

测试验证

curl 127.0.0.1:1025/generate -d '{
    "prompt": "What is deep learning?",
    "max_tokens": 32,
    "stream": false,
    "do_sample": true,
    "repetition_penalty": 1.00,
    "temperature": 0.01,
    "top_p": 0.001,
    "top_k": 1,
    "model": "llama"
}'

若有输出结果,则部署成功。

OPENWEB UI 部署

• 需要Python 3.11版本。

• 参照OpenWeb UI GitHub进行界面化展示DeepSeek模型。

### 华为昇腾910B部署Qwen模型教程 要在华为昇腾910B上成功部署Qwen模型,需遵循特定的技术流程和工具链支持。以下是详细的说明: #### 工具准备 为了实现高效部署,推荐使用`lmdeploy`作为主要工具[^2]。该工具专为昇腾平台设计,能够优化大语言模型的推理性能并提供良好的兼容性。 #### 环境配置 环境搭建是整个过程的基础部分。需要安装适配昇腾硬件架构的操作系统以及驱动程序版本。具体而言,应确保操作系统满足昇腾设备的要求,并完成对应CUDA Toolkit或者NPU SDK的相关设置。 #### 数据预处理 数据输入前通常要经过一系列标准化操作,比如分词、编码转换等步骤来适应模型需求。对于中文场景下的文本处理任务来说尤为重要的是采用适合中文特性的Tokenizer进行分割[^1]。 #### 模型加载与初始化 通过调用`lmdeploy`接口可以方便地载入已训练好的Qwen权重文件到内存当中去。这里需要注意路径参数正确指定以及资源分配合理规划以充分利用多核计算能力。 ```python from lmdeploy import turbomind as tm session_id = 1 tokenizer_path = 'path/to/tokenizer' model_path = 'path/to/model' # 初始化 tokenizer 和 model 实例对象 tokenizer = tm.Tokenizer(tokenizer_path) model = tm.Model(model_path) input_text = "你好" inputs = tokenizer.encode(input_text) outputs = model.infer([inputs], session_id=session_id)[0] decoded_output = tokenizer.decode(outputs.tolist()) print(decoded_output) ``` 上述代码片段展示了如何利用`lmdeploy.turbomind`库中的功能构建从字符串编码至解码输出完整的流水线作业方式。 #### 性能调优建议 针对不同应用场景可能还需要进一步调整超参设定从而达到最佳效果。例如批量大小(batch size),序列长度(sequence length)等因素都会影响最终吞吐量表现水平。 ---
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值