问题描述
昇腾芯片(910b
/310p
等)进行多卡训练或者推理时需要先获取并配置每张npu
的ip
信息,因此需要执行类似下面问题:
python mindformers/tools/hccl_tools.py --device_num "[0,8)"
执行后报错:
注意:有的报错显示Command execute failed!
有的报错显示/bin/sh: hccn_tool: command not found
Failed to call hccn_tool, try to read /etc/hccn.conf instead
问题产生原因
- 宿主机无
hccn_tool
执行命令,可使用下述命令查询(无输出则没有该命令)
whereis hccn_tool
/etc/hccn.conf
文件为空,可使用下述命令查询(无输出则没有该命令)
vi /etc/hccn.conf
- 下面指令需要在