0x1 起始
最近学校购置了一批采用昇腾910B2作为NPU的鲲鹏服务器,由于目前没有很好的微调想法或者工作,于是打算先把这些机器拿来跑推理任务,这样还可以省一批消费API的经费。基于这个目的我于是开始了探索,发现网上并没有关于此的完整记录,故撰写本文
由于本校直接采用的是基于天翼云的息壤一体化智算服务平台,一些例如CANN和NPU-Driver之类的底层物理机环境无需我考虑。于是我直接从怎么获取MindIE镜像开始
我的机器应该是对应Atlas 800I A2这个型号,采用的是昇腾910B2的NPU,这点我们可以输入
npu-smi info
可以获取到如下的信息,我此次申请的是8卡的机器
+------------------------------------------------------------------------------------------------+
| npu-smi 23.0.3 Version: 23.0.3 |
+---------------------------+---------------+----------------------------------------------------+
| NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page)|
| Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM-Usage(MB) |
+===========================+===============+====================================================+
| 0 910B2 | OK | 97.0 53 0 / 0 |
| 0 | 0000:C1:00.0 | 0 0 / 0 53701/ 65536 |
+===========================+===============+====================================================+
| 1 910B2 | OK | 101.8 57 0 / 0 |
| 0 | 0000:01:00.0 | 0 0 / 0 53698/ 65536 |
+===========================+===============+====================================================+
| 2 910B2 | OK | 99.5 54 0 / 0 |
| 0 | 0000:C2:00.0 | 0 0 / 0 53699/ 65536 |
+===========================+===============+====================================================+
| 3 910B2 | OK | 102.7 57 0