使用昇腾芯片进行多卡训推时使用hccl_tools.py为npu分配ip报错问题解决办法

最新推荐文章于 2025-02-27 13:47:56 发布

Coder_Guan

最新推荐文章于 2025-02-27 13:47:56 发布

阅读量2.7k

点赞数 17

文章标签： tcp/ip php 网络协议

本文链接：https://blog.csdn.net/qq_39213284/article/details/140218116

版权

问题描述

昇腾芯片（910b/310p等）进行多卡训练或者推理时需要先获取并配置每张npu的ip信息，因此需要执行类似下面问题：

python mindformers/tools/hccl_tools.py --device_num "[0,8)"

执行后报错：
请添加图片描述
注意：有的报错显示Command execute failed!
有的报错显示/bin/sh: hccn_tool: command not found
Failed to call hccn_tool, try to read /etc/hccn.conf instead

问题产生原因

宿主机无hccn_tool执行命令，可使用下述命令查询（无输出则没有该命令）

whereis hccn_tool

在这里插入图片描述

/etc/hccn.conf文件为空，可使用下述命令查询（无输出则没有该命令）

vi /etc/hccn.conf

下面指令需要在

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Coder_Guan

关注关注

17
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

华为昇腾 NPU卡mindspore mindyolo目标检测推理使用、训练

weixin_42357472的博客

11-13

4407

参考：使用案例：特别注意opencv-python、opencv-python-headless版本问题，不然会遇到ImportError: libGL.so.1: cannot open shared object file: No such file or directory等问题。

华为昇腾Ascend系列之 03 如何查看服务器操作系统版本（教程含源码Ascend 910、Ascend 910B）

iCloudEnd的博客

06-03

909

如何查看服务器操作系统版本。

参与评论您还未登录，请先登录后发表或查看评论

mindspore-NPU单卡可以执行，多卡会报错

weixin_45666880的博客

08-17

735

建立 hccl 的 json 文件的问题，我在 8p 的机器上只希望使用 4 张卡，在构建 json 文件时就要指出，不能构建 8 卡的 json 文件，但是使用四张卡。单卡可以正常执行训练和推断，多卡训练会报错，hccl 的 json 文件和多卡的脚本都按照官方文档构建的。...

DeepSeek在昇腾上的模型部署 - 常见问题及解决方案

最新发布

2401_87243659的博客

02-27

1331

2024年12月26日，DeepSeek-V3横空出世，以其卓越性能备受瞩目。该模型发布即支持昇腾，用户可在昇腾硬件和MindIE推理引擎上实现高效推理，但在实际操作中，部署流程与常见问题困扰着不少开发者。本文将为你详细阐述昇腾DeepSeek模型部署的常见问题及解决方案。

Ascend NPU 硬件架构入门

AI Infra / LLM / 软件开发

08-31

4779

昇腾 NPU 是专门用于 AI 训练/推理计算的 AI 专用处理器，其中的 AI Core 能够在很大程度上提高 AI 计算的效率。本文将主要介绍 ASCEND NPU 的硬件架构 & 工作原理、AI Core 的计算模式以及异构计算平台 CANN 等内容。

昇腾Ascend之npu-smi工具在Atlas 200 DK（Model: 3000）的简单使用

IT菜鸟

04-08

2623

昇腾Ascend之npu-smi工具的简单使用

学习笔记：在华为昇腾NPU上进行深度学习项目【未完待续】

qq_19072921的博客

01-15

4674

在华为昇腾NPU上调研深度学习项目

LLMs之Chinese-LLaMA-Alpaca-2：源码解读(run_clm_sft_with_peft.py文件)—模型训练前置工作(参数解析+配置日志)→模型初始化(检测是否存在训练过的che

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

09-17

1921

用于控制模型权重和计算的数据类型，确定计算过程中使用的数据类型，用半精度浮点数float16、Bfloat16或单精度浮点数float32。

LLM-项目详解（一）：Chinese-LLaMA-Alpaca【run_clm_pt_with_peft.py文件】

u013250861的博客

08-14

405

【代码】LLM-项目详解（一）：Chinese-LLaMA-Alpaca【run_clm_pt_with_peft.py文件】

mmdetection自定义取出检测结果脚本及image_demo.py解析

认真努力，做一只会飞的毛毛虫。

03-01

9383

之所以要说image_demo.py，是因为其和video_demo.py、webcam_demo.py这三者是大差小不差，并为我们取出检测结果用于其他接口提供思路。image_demo.py在mmd\demo文件夹下。首先，我们给出image_demo.py的参数解析器和main()方法的注释，整个过程比较简单，随后进行逐方法分析。 import asyncio from argparse import ArgumentParser from mmdet.apis import (async_inf

Deepspeed+Trainer多卡微调大型模型的简单高效实现_ChatGLM.mutli_gpu_tuning.zip

10-18

Deepspeed是一个由微软研究院开发的深度学习优化库，旨在通过高性能、可扩展和内存效率等特性，解决训练大型深度学习模型时遇到的挑战。而Trainer则是Hugging Face提供的一个训练框架，它简化了模型训练的复杂度，并...

昇腾Ascend之npu-smi工具在Atlas 200I DK A2的简单使用

IT菜鸟

04-10

3810

昇腾Ascend之npu-smi工具在Atlas 200I DK A2的简单使用

modelscope适配昇腾NPU

风一样的少年

11-06

1362

我们可以通过d500确定npu的型号（这里我没有找到官方的转换渠道，而是百度了一下，如果你有更好的方式，帮忙给留个言）这一步可以先不做，如果后面出现相关报错了，或者你的驱动目录(一般是/usr/local/Ascend这个目录)中没有ascend-toolkit目录，你可以做下这一步。找到你的python环境的site-packages, 将你的modelscope目录备份下，然后替换为仓库里的modelscope。安装昇腾的驱动也是一个折磨的过程，主要是资料太少了，安装过程中的问题不太好找到解决办法。

搭载昇腾310NPU的Orange Pi AIpro开箱体验以及深度学习样例测试

Johnor的博客

05-27

3416

话不多说先放两张Orange Pi AIpro的全身照，可以看到板子还是很漂亮的。Atlas 200计算模块作为开发板的CPU与NPU。模块集成了Ascend 310处理器，可以高效地高效能低功耗：昇腾310采用7nm工艺制造，拥有高效的能耗比，能够在提供强大计算能力的同时保持较低的功耗，非常适合嵌入式和边缘计算应用。强大计算能力。

华为昇腾910B3 NPU训练最佳实践

myboyliu2007的专栏

06-26

5883

NPU推理与微调最佳实践在 Notebook 打开NPU推理与微调最佳实践在 Notebook 打开。

mindformers生成hccl json文件的时候报错

weixin_45666880的博客

05-25

732

***************************************************解答*****************************************************当前支持的硬件为Atlas 800训练服务器与。所有纯推理的310大概率会遇到其他问题。另外json随便修改下就行了。下面的ip改下就行。

华为Ascend昇腾计算产业概述

热门推荐

IT菜鸟

07-11

1万+

[产品与解决方案介绍视频（渠道版）] 020101Atlas人工智能计算平台[彩页（客户版）] 华为Atlas人工智能计算解决方案产品彩页[营销物料] 人工智能创新应用优秀案例集昇腾官网AscendCL文档昇腾产品成长地图华为昇腾系列芯片的系列名称。昇腾芯片上集成了AI CORE、AI CPU和CPU。其中，AI CORE负责大型Tensor Vector运算，AI CORE负责标量运算，CPU负责逻辑控制和任务分发。在昇腾310AI处理器（NPU）上，既有负责专用计算的Davinci Core，也有负

yolox找不到文件hccl_tools.py

xi_xiyu的博客

02-25

179

***************************************************解答*****************************************************在公共目录下，utils/hccl_tools/hccl_tools.py。可是找不到hccl_tools.py文件。中快速入门尝试demo。

【新教程】华为昇腾NPU的pytorch环境搭建

整数浮点

01-03

2055

从以下网站，根据匹配结果下载：https://www.hiascend.com/developer/download/community/result?如果不知道用的是哪一个CANN，可以先Python一下，import torch这个包，然后看告警信息是哪个版本的。根据昇腾官方gitee上的信息，Pytoch 2.1.0是长期支持版本，因此选择安装这一版本，从而最大限度避坑。确定好CANN版本后，从下表中手动查找对应的torch_npu版本。2、在新建好的conda环境中，安装基础的依赖。

yolov8多卡训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

01-09

### YOLOv8 Multi-GPU Training and Resolving `ChildFailedError` When encountering the error `torch.distributed.elastic.multiprocessing.errors.ChildFailedError` during multi-GPU training with YOLOv8, several factors could contribute to this issue. The following sections provide a comprehensive approach to diagnosing and resolving these errors. #### Verify Compatibility of PyTorch and CUDA Versions One common cause is mismatched versions between PyTorch's cuDNN version and the installed CUDA toolkit on the system[^4]. For instance, if using CUDA 11.6, ensure that all dependencies align correctly: ```bash pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116 ``` This ensures compatibility by installing specific builds tailored for CUDA 11.6 environments. #### Update Command Syntax According to PyTorch Version For PyTorch versions greater than or equal to 1.9, the command syntax has changed from `torch.distributed.launch` to `torch.distributed.run`. Using outdated commands can lead directly to `ChildFailedError`. Replace any instances of `launch` with `run`, adjusting parameters as necessary: ```python python -m torch.distributed.run \ --nproc_per_node=NUM_GPUS_YOU_HAVE \ train.py \ --img 640 640 \ --epochs 3 \ --cfg cfg/training/yolov7-tiny.yaml \ --weights '' \ --name yolov7 \ --hyp data/hyp.scratch.tiny.yaml ``` Ensure parameter names match those expected by the script; some scripts may require hyphens instead of underscores (e.g., `local-rank`)[^3]. #### Clear Cache Files Corrupted cache files might interfere with proper execution flow. Specifically within datasets used for training, clearing label caches can prevent unexpected behavior: ```bash rm path/to/dataset/*.cache ``` Afterwards, reinitialize the dataset processing step which will regenerate required metadata without potential corruption issues present before. --- --related questions-- 1. How does one verify the current installation details of PyTorch including its associated CUDA version? 2. What are best practices when transitioning codebases utilizing older distributed utilities like `torch.distributed.launch` to newer ones such as `torch.distributed.run`? 3. In what scenarios would it be beneficial to adjust batch sizes while performing multi-GPU operations in deep learning frameworks similar to PyTorch? 4. Can you explain how environment variables influence GPU resource allocation during parallel computing tasks involving multiple GPUs?