昇腾910平台安装驱动、固件、CANN toolkit、pytorch

本文详细介绍了在ARM架构的openEuler系统上安装昇腾910平台所需的驱动、固件、CANN工具包以及Python环境(包括Anaconda和PyTorch)的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文使用的昇腾910平台操作系统是openEuler,之前没了解过,不过暂时感觉用起来和centOS差不多。系统架构是ARM,安装包基本都是带aarch64字样,注意和x86_64区别开,别下错了。

安装依赖

cmake

通过yum安装的cmake版本较老,需要源代码安装

wget https://cmake.org/files/v3.21/cmake-3.21.3.tar.gz
tar -zxvf  cmake-3.21.3.tar.gz
cd cmake-3.21.3
./bootstrap
gmake -j16
sudo gmake install

anaconda

使用系统自带的python3也可以,不过anaconda的虚拟环境我用习惯了,感觉很方便。
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 直接找最新的版本。我用的是https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2023.09-0-Linux-aarch64.sh
安装完别忘记把环境变量加入.bashrc文件。

其它依赖

yum install -y gcc gcc-c++ make cmake unzip zlib-devel libffi-devel openssl-devel pciutils net-tools sqlite-devel lapack-devel gcc-gfortran

卸载旧的驱动、固件、CANN toolkit

卸载驱动

cd /usr/local/Ascend/driver/script
bash uninstall.sh

卸载固件

cd /usr/local/Ascend/firmware/script
bash uninstall.sh

卸载nnae

cd /usr/local/Ascend/nnae/6.3.RC1/script
bash uninstall.sh

卸载ascend-toolkit

cd /usr/local/Ascend/ascend-toolkit/
bash cann_uninstall.sh

/ascend-toolkit文件夹下可能安装了多个版本,用下面的命令找一下这些版本脚本位置,都卸载干净:

find . -type f -name "cann_uninstall.sh"

安装驱动和固件

下载链接 https://www.hiascend.com/hardware/firmware-drivers/community?product=4&model=10&cann=7.0.0.alpha003&driver=1.0.21.alpha
按你的平台和安装方式筛选:

在这里插入图片描述
我是下面这两个:
Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run
Ascend-hdk-910-npu-firmware_7.0.0.5.242.run

以root用户登录,将驱动和固件包上传。创建驱动运行用户HwHiAiUser。

groupadd -g 1000 HwHiAiUser
useradd -g HwHiAiUser -u 1000 -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash

增加可执行权限:

chmod +x Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run
chmod +x Ascend-hdk-910-npu-firmware_7.0.0.5.242.run

安装驱动:

./ Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run --full --install-for-all

出现类似如下回显信息,说明安装成功。
Driver package installed successfully!

还可以通过执行npu-smi info命令检查驱动是否加载成功。

安装固件:

./ Ascend-hdk-910-npu-firmware_7.0.0.5.242.run --full

出现类似如下回显信息,说明安装成功。
Firmware package installed successfully! Reboot now or after driver installation for the installation/upgrade to take effect

驱动和固件安装完成后,重启系统。

reboot

安装CANN

下载安装包:https://www.hiascend.com/developer/download/community/result?module=cann&product=4&model=10
我是这个:
Ascend-cann-toolkit_7.0.0.alpha003_linux-aarch64.run

增加可执行权限:

chmod +x Ascend-cann-toolkit_7.0.0.alpha003_linux-aarch64.run

安装

./Ascend-cann-toolkit_7.0.0.alpha001_linux-x86_64.run --install

安装过程中输入Y同意协议。安装完成后,若显示如下信息,则说明软件安装成功。
[INFO] Ascend-cann-toolkit install success

配置CANN环境变量,将下面这句话加入.bashrc:

source /usr/local/Ascend/ascend-toolkit/set_env.sh

安装pytorch

创建虚拟环境

CANN对python版本有要求,同时需要安装一些python包,可以通过下面的脚本检查是否满足:

cd /usr/local/Ascend/ascend-toolkit/latest/aarch64-linux/bin
bash prereq_check.bash

我选用的版本是python3.8.11,通过下面命令创建虚拟环境:

conda create -n py38 python=3.8.11

激活环境

conda activate py38

安装依赖包

pip install pyyaml
pip install numpy
pip install attrs cloudpickle decorator psutil scipy synr==0.5.0 tornado absl-py
pip install google-cloud google-cloud-vision
protobuf==3.20.0

安装速度慢的话可以加上指定源,比如:

pip install -i https://mirrors.aliyun.com/pypi/simple/ pyyaml

注意protobuf的版本。

安装pytorch及adapter

参考 https://gitee.com/ascend/pytorch
我安装的是2.1.0版本,可以直接通过pip快速安装

pip3 install torch==2.1.0
pip3 install pyyaml
pip3 install setuptools
pip3 install torch-npu==2.1.0rc1

验证:
第一步:
python3 -c "import torch;import torch_npu;print(torch_npu.npu.is_available())"
返回True说明可以成功调用NPU。
第二步:

import torch
import torch_npu

x = torch.randn(2, 2).npu()
y = torch.randn(2, 2).npu()
z = x.mm(y)

print(z)

能正常计算说明安装成功。可能遇到算子构造失败的情况,检查python版本是否符合要求,CANN安装之前是否卸载干净。

<think>好的,我现在需要帮助用户解决如何使用Docker部署基于昇腾910B的大模型的问题。首先,我得回忆一下昇腾910B的相关知识。昇腾是华为的AI处理器,910B应该是其中一款型号,常用于深度学习和大模型训练。Docker部署的话,通常需要配置合适的环境,包括驱动固件CANN工具包等。 用户提到了参考引用里的内容,特别是引用[2]和引用[3]。引用[2]提供了加载昇腾NPU环境变量和安装Python库的命令,这可能是在配置开发环境时的步骤。引用[3]看起来是昇腾社区的链接,可能包含驱动固件的下载信息。 首先,部署Docker需要基础镜像,可能华为提供了包含昇腾支持的Docker镜像。然后,环境配置部分需要安装CANN工具包,设置环境变量,以及安装必要的Python库,如torch_npu、transformers等,这部分引用[2]已经提到。 接下来,用户可能需要构建自定义的Docker镜像,编写Dockerfile,包括基础镜像、安装依赖、复制代码、设置启动命令等步骤。此外,运行容器时需要挂载驱动和设备,确保容器能访问NPU设备,这可能涉及到--device参数和卷挂载。 验证部分需要检查CANN版本和NPU状态,可能用到npu-smi命令。同时,用户可能需要下载预训练的大模型,比如通过Hugging Face,并在代码中加载模型,使用NPU作为设备。 可能遇到的问题包括驱动版本不匹配、Docker权限问题、环境变量设置错误等,需要指导用户检查这些部分。 最后,生成的相关问题可能涉及昇腾的其他应用、性能优化、与其他框架的对比,以及常见错误的解决。需要确保这些问题与用户的需求相关,并且能够帮助他们进一步深入。 现在需要将上述思考整理成结构化的步骤,确保引用正确,并按照用户的要求使用中文,正确使用LaTeX格式,比如环境变量设置部分用行内公式,独立命令用代码块。同时,要检查引用标记的位置,自然地在相关步骤末尾添加[^2]或[^3]。</think>### 使用Docker部署基于昇腾910B的大模型教程 #### 1. **昇腾开发环境准备** - **安装驱动固件** 访问昇腾社区下载与昇腾910B匹配的驱动固件,确保NPU硬件可被系统识别。 - **安装CANN工具包** CANNAscend Computing Toolkit是昇腾AI处理器的异构计算架构,需安装与硬件兼容的版本。例如: ```bash wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/CANN/8.0.RC2.alpha002/Ascend-cann-toolkit_8.0.RC2.alpha002_linux-aarch64.run ./Ascend-cann-toolkit_*.run --install ``` #### 2. **配置Docker环境** - **获取昇腾基础镜像** 使用华为提供的昇腾Docker镜像作为基础环境: ```bash docker pull ascendhub.huawei.com/public-ascendhub/ascend-base:22.0.2 ``` - **编写Dockerfile** 创建自定义镜像,集成CANN工具和Python依赖: ```dockerfile FROM ascendhub.huawei.com/public-ascendhub/ascend-base:22.0.2 RUN source /usr/local/Ascend/ascend-toolkit/set_env.sh \ && pip install torch_npu transformers datasets accelerate peft # 引用[2] COPY ./app /app CMD ["python", "/app/main.py"] ``` #### 3. **运行容器并挂载设备** - **启动容器时绑定NPU设备** 通过`--device`参数将宿主机的NPU设备映射到容器内: ```bash docker run -it --rm \ --device=/dev/davinci0 \ # 假设NPU设备号为0 --volume /usr/local/Ascend/driver:/usr/local/Ascend/driver \ my-ascend-image ``` #### 4. **验证NPU可用性** - **在容器内执行检测命令** 使用`npu-smi`工具查看NPU状态: ```bash npu-smi info ``` - **测试PyTorchNPU集成** 运行Python代码验证`torch_npu`是否正常: ```python import torch x = torch.randn(2, 2).npu() # 将张量迁移至NPU print(x.device) # 应输出npu:0 ``` #### 5. **部署大模型示例** - **加载Hugging Face模型** 使用昇腾适配的Transformers库加载模型: ```python from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("model_name").to("npu") ``` - **优化计算流程** 结合`torch_npu`的混合精度和算子优化提升性能[^2]。 --- ### 常见问题解决 - **NPU设备未识别** 检查`/dev/davinci*`设备权限,确保容器用户有访问权限。 - **CANN版本冲突** 确保宿主机的驱动版本与容器内的CANN工具包版本一致。 - **PyTorch报错** 使用`import torch_npu`后需调用`torch.npu.set_device(0)`初始化NPU上下文。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值