华为昇腾910b3服务器环境搭建笔记
在华为昇腾服务器创建MindIE推理容器环境
相关固件、驱动、CANN以及对应的镜像获取地址如下所示:
https://modelers.cn/models/xieyuxiang/mindie_1.0.0_image/tree/main
安装openmind-hub
pip install openmind-hub
获取相关资源包:
from openmind_hub import snapshot_download
snapshot_download(repo_id="xieyuxiang/mindie_1.0.0_image",repo_type="model")
根据上图所示,进入到文件缓存目录
安装相关的驱动以及工具包:
增加软件包的可执行( * 代表所有的run文件)
chmod +x *.run
完成驱动安装,软件包默认安装路径为“/usr/local/Ascend”
./Ascend-hdk-910b-npu-driver_24.1.0_linux-aarch64.run --full --install-for-all
安装完毕,如下下图所示:
执⾏如下命令,完成安装固件
./Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run --full
上述执行完毕后:
通过npu-smi info 查看卡是否成功(图中驱动版本信息仅供参考,以实际为准)如图:
安装toolkit and kernels前的相关准备工作
安装前,建议执行命令pip3 install --upgrade pip进行升级,避免因pip版本过低导致安装失败
安装python3_pip
安装此官方是使用yum install -y python3_pip 指令,但我在安装时使用该指令无法安装,所以采用以下流程安装pip
使用 get-pip.py 脚本来安装 pip
下载 get-pip.py 脚本
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
使用 Python 运行脚本来安装 pip:
python3 get-pip.py
查看时候安装成功:
pip --version
具体如下图所示:
安装相关依赖
pip install --upgrade pip
pip install --upgrade pip --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install attrs numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf scipy requests absl-py --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple
安装toolkit
./Ascend-cann-toolkit_8.0.0_linux-aarch64.run --install
安装成功如下所示:
添加toolkit环境变量
echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> ~/.bashrc
source ~/.bashrc
安装kernel
./Ascend-cann-kernels-910b_8.0.0_linux-aarch64.run --install
安装 Ascend-docker-runtime
Ascend-docker-runtime_6.0.RC3_linux-aarch64.run 下载地址如下:
https://gitee.com/ascend/ascend-docker-runtime/releases
chmod +x Ascend-docker-runtime_6.0.RC3_linux-aarch64.run
./Ascend-docker-runtime_6.0.RC3_linux-aarch64.run --install
安装Pytorch框架
pip install torch==2.1.0 torch_npu==2.1.0 numpy==1.24.4 -i https://pypi.tuna.tsinghua.edu.cn/simple
检验是否安装成功
python3 -c "import torch;import torch_npu; a = torch.randn(3, 4).npu(); print(a + a);"
检测指定npu
python3 -c "import torch;import torch_npu;torch_npu.npu.set_device('npu:1');a = torch.randn(3, 4).npu(); print(a + a);"
昇腾服务器创建MindIE推理容器
docker load -i mindie1.0.0-ubuntu22.04.tar.gz
查看本地镜像:
docker images
创建容器:
docker run -it --ipc=host --net=host \
--name mindie1_gqr \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common \
-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /etc/vnpu.cfg:/etc/vnpu.cfg \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /home/GOOGOSOFT_AI/huawei:/home/data \
b42967ad8d7b /bin/bash
查看容器:
docker ps -a
下载昇腾模型:
from openmind_hub import snapshot_download
snapshot_download(repo_id="Jinan_AICC/DeepSeek-R1-Distill-Qwen-7B-w8a8", token="your_token", repo_type="model")
#!/bin/bash
# 定义要下载的文件 URL
FILE_URLS=(
"https://modelers.cn/coderepo/web/v1/file/Sunhuan/PeiXun/main/media/DeepSeek-R1-Distill-Qwen-32B-w8a8.tar.gz"
"https://modelers.cn/coderepo/web/v1/file/Sunhuan/PeiXun/main/media/mindie910A_image.tar"
"https://modelers.cn/coderepo/web/v1/file/Sunhuan/PeiXun/main/media/openwebui_image.tar"
)
# 定义保存文件的目录
SAVE_DIR="./downloads"
# 创建保存目录(如果不存在)
mkdir -p "$SAVE_DIR"
# 依次下载文件
for url in "${FILE_URLS[@]}"; do
# 提取文件名
filename=$(basename "$url")
# 下载文件
echo "正在下载: $filename"
wget -O "$SAVE_DIR/$filename" "$url"
# 检查下载是否成功
if [ $? -eq 0 ]; then
echo "下载成功: $filename"
else
echo "下载失败: $filename"
fi
done
echo "所有文件下载完成!"
昇腾显卡训练镜像:
https://modelers.cn/coderepo/web/v1/file/kristen/llama-factory-image-910A/main/media/llama-factory-modified.tar