文章目录
1.部署前提
1.1 背景
开发小组需要验证IEEE打榜平台华为resnet、bert 基于mindspore r1.3模型训练。
部署服务器: CentOS7.6 aarch64 910训练卡
目标服务器现有好环境已能通过yum在线安装软件。
60服务器部署目录:/root/ascend-deployer/resources。
部署目标:Python3.7.5、Ascend 训练卡驱动和工具包 v5.0.2、Mindspore R1.3及相关依赖
安装环境已经部署Python2.7、Python3.6.8。
安装思路:
- ascend-deployer安装依赖、python3.7.5、npu(驱动和固件)
- 手工安装ascend toolkit
- pip3安装mindspore r1.3
- 手工安装辅助软件
2.安装软件下载
按安装顺序:
- Python3.7.5: Python-3.7.5.tar.xz, 下载链接地址
- ascend-deployer: git clone
https://gitee.com/ascend/ascend-deployer.git, 在/root目录下载 - 910训练卡驱动:A300t-9000-A800-9000-A900-9000-npu_21.0.2_linux-aarch64.zip,
下载链接地址。存放位置:/root/ascend-deployer/resources/ - Asend toolkit: Ascend-cann-toolkit_5.0.2_linux-aarch64.run,
下载链接地址。存放位置:/root/ascend-deployer/resources/
3.安装过程
安装执行目录:/root/ascend-deployer/resources/
3.1 安装python3.7.5、NPU驱动及相关依赖
3.1.1 安装指令:
../install.sh --install=sys_pkg,python375,npu
或:
ascend-depolyer --install=sys_pkg,python375,npu
注意,python3.7.5安装后,需要手工创建python3和pip3软链接。
3.1.2 python验证:
验证指令:python3 -V
当显示版本不是python3.7.5时,执行find / -name python3.7.5
确认python3.7.5的安装位置/usr/local/python3.7.5, 执行如下指令,修改python3和pip3的软链接:
ln -snf /usr/local/python3.7.5/bin/python3.7 /usr/bin/python3
ln -snf /usr/local/python3.7.5/bin/pip3.7 /usr/bin/pip3
没有预装python3版本时,则新建相关软链接,执行:
ln -s /usr/local/python3.7.5/bin/python3.7 /usr/bin/python3
ln -s /usr/local/python3.7.5/bin/pip3.7 /usr/bin/pip3
pip安装验证:执行pip3 install -y pytest
, 安装pytest,执行pip3 list |grep pytest
,检查pip3在线安装能力是否OK。有问题请联系网络管理员,检查网络。
3.1.3 npu验证:
执行./install.sh --test=driver
,检查ascend驱动固件是否安装成功。未成功,请卸载驱动重新安装。
执行npu-smi info
, 有如下结果显示为正常:
3.2 安装ascend工具开发包
安装指令
执行Ascend-cann-toolkit_5.0.2_linux-aarch64.run --full
3.3 pip3安装mindspore r1.3
3.3.1 安装准备,获取pip3安装指令
在mindspore 官网安装界面,选择如下参数:
获取pip3安装指令,如下:
pip3 install https://ms-release.obs.cn-north-4.myhuaweicloud.com/1.3.0/MindSpore/ascend/aarch64/mindspore_ascend-1.3.0-cp37-cp37m-linux_aarch64.whl --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple
安装之前,请仔细阅读mindspore安装注意事项。其中需要注意的是安装需要gcc7.3.0版本。版本要求达不到的,请参照参考文献3及时升级。
特别说明:参考文献3升级gcc7.3.0步骤最后一步删除旧的libstdc++.so.6软链接,建议不删除而是执行ln --snf
修改软连接,避免操作不慎瘫痪系统。
3.3.2 安装mindspore
执行pip3安装指令
3.3.3 安装验证
[root@lfbn-idf1-1-1628-60 ascend-deployer]# source /home/lhb/tool/mindspore_env.sh
[root@lfbn-idf1-1-1628-60 ascend-deployer]# python3 -c "import mindspore;mindspore.run_check()"
MindSpore version: 1.3.0
The result of multiplication calculation is correct, MindSpore has been installed successfully!
至此, mindspore r1.3 华为910训练环境搭建完成。
3.4 安装清理
cd /root/ascend-deployer/resource
rm -rf ./*
4.问题排查记录
4.1 未安装bzp2
现象:
解决方法:
当_bz2.cpython-37m-aarch64-linux-gnu.so,没有时,sudo yum install bzip2-devel。有时,拷贝该文件到目录–/usr/local/python3.7.5/lib/python3.7/lib-dynload/。见参考文献5。
4.2 gcc版本低
系统默认gcc版本4.8.5,mindspore 1.5要求是gcc7.3.0
现象:
解决方法:安装参考文献3升级gcc版本到7.3.0。升级过程中遇到问题,请见参考文献3或4。
5.参考文献
[1] linux 升级GCC到7.3.0版本, 大帅不是我,2021-08-28, https://blog.csdn.net/hhs_1996/article/details/119967509
[2] ascend-deployer安装指导,https://gitee.com/ascend/ascend-deployer#download_parameter
[3] centos7 升级GCC版本到7.3.0, 布尔先生, https://www.cnblogs.com/lvpengbo/p/12719535.html
[4] linux 升级GCC到7.3.0版本, https://blog.csdn.net/hhs_1996/article/details/119967509
[5] 解决No module named ‘_bz2’的问题, http://www.opython.com/1747.html