华为昇腾300i 推理芯片配置

一、查看信息

  1. 执行命令:在命令行中输入以下命令来查看NPU的信息,包括型号、数量等:
     

    bash

    npu-smi info

    或者使用以下命令来实时监控NPU信息:
     

    bash

    watch -n 0.5 npu-smi info

    这些命令将列出服务器的NPU信息,包括型号和数量等。
  2. 查看输出信息:命令执行后,您将看到类似于以下格式的信息:
     

    text

    +------------------+------------------+------------------+ | Field | Description | Value | +------------------+------------------+------------------+ | NPU | 设备 id | 0 | | Name | 芯片名称 | Ascend 910 | | Health | 芯片健康状态 | OK | | Power(W) | 芯片功率 | 50 | | Temp(C) | 芯片温度 | 70 | | Memory-Usage(MB) | 内存占用 | 2048 | +------------------+------------------+------------------+

    其中,Name字段显示的就是NPU的型号。

二、创建 HwHiAiUser 用户

  1. 创建 HwHiAiUser 用户:使用以下命令创建 HwHiAiUser 用户:
     

    bash

    sudo useradd -m HwHiAiUser

    这个命令会创建一个名为 HwHiAiUser 的新用户,并为其创建一个主目录。
  2. 设置密码(可选):如果需要为这个用户设置密码,可以使用以下命令:
     

    bash

    sudo passwd HwHiAiUser

    然后按提示输入并确认密码。
  3. 将用户添加到必要的组:可能需要将 HwHiAiUser 添加到某些组中,以确保其具有正确的权限:
     

    bash

    sudo usermod -aG sudo HwHiAiUser

    这会将 HwHiAiUser 添加到 sudo 组,使其具有管理员权限。
  4. 重新运行安装程序:创建用户后,重新运行安装程序:
     

    bash

    sudo ./Ascend-hdk-310p-npu-driver_24.1.rc2_linux-aarch64.run --full

  5. 检查安装日志:如果安装过程中遇到其他问题,可以查看安装日志以获取更多信息:
     

    bash

    cat /var/log/ascend_seclog/ascend_install.log

请注意,创建新用户和修改系统配置可能需要管理员权限。确保您有足够的权限执行这些操作。此外,在进行这些更改之前,建议备份重要数据。

三、安装net-tools

  1. 安装 net-tools 包:
    ifconfig 通常包含在 net-tools 包中。您可以使用以下命令安装它:
     

    bash

    sudo apt-get update sudo apt-get install net-tools

  2. 验证安装:
    安装完成后,可以通过运行以下命令来验证 ifconfig 是否可用:
     

    bash

    ifconfig

    如果命令成功执行并显示网络接口信息,则说明安装成功。
  3. 重新运行安装程序:
    安装 net-tools 后,再次尝试运行昇腾驱动安装程序:
    pip
    
    Command 'pip' not found, but can be installed with:
    
    sudo apt install python3-pip
    
    baixin@baixin:~$ sudo apt-get install python3 python3-pip
    

    bash

    sudo ./Ascend-hdk-310p-npu-driver_24.1.rc2_linux-aarch64.run --full

  4. 检查其他依赖:

四、安装驱动

  1. 重新运行安装程序:
    安装 net-tools 后,再次尝试运行昇腾驱动安装程序:
     

    bash

    sudo ./Ascend-hdk-310p-npu-driver_24.1.rc2_linux-aarch64.run --full

sudo ./Ascend-hdk-310p-npu-driver_24.1.rc2_linux-aarch64.run --full
[sudo] password for baixin: 
Verifying archive integrity...  100%   SHA256 checksums are OK. All good.
Uncompressing ASCEND DRIVER RUN PACKAGE  100%  
[Driver] [2024-08-01 13:42:07] [INFO]Start time: 2024-08-01 13:42:07
[Driver] [2024-08-01 13:42:07] [INFO]LogFile: /var/log/ascend_seclog/ascend_install.log
[Driver] [2024-08-01 13:42:07] [INFO]OperationLogFile: /var/log/ascend_seclog/operation.log
[Driver] [2024-08-01 13:42:07] [INFO]base version is none.
[Driver] [2024-08-01 13:42:07] [WARNING]Do not power off or restart the system during the installation/upgrade
[Driver] [2024-08-01 13:42:07] [INFO]set username and usergroup, HwHiAiUser:HwHiAiUser
[Driver] [2024-08-01 13:42:08] [INFO]driver and firmware version relationship check success
[Driver] [2024-08-01 13:42:11] [INFO]driver install type: Rebuild
[Driver] [2024-08-01 13:42:11] [INFO]Rebuilding by kernel path(/lib/modules/5.4.0-190-generic/build), detail in /var/log/ascend_seclog/ascend_rebuild.log
[Driver] [2024-08-01 13:42:22] [WARNING]Rebuild ko has something wrong, detail in /var/log/ascend_seclog/ascend_rebuild.log
[Driver] [2024-08-01 13:42:22] [INFO]Do you want to try build driver after input kernel absolute path? [y/n]:
y
[Driver] [2024-08-01 13:42:46] [INFO]Please input your kernel absolute path or input [Q/q] to exit:
/lib/modules/$(uname -r)/build
[Driver] [2024-08-01 13:43:47] [WARNING]/lib/modules/$(uname -r)/build no exist or not a absolute path! input again or input [Q/q] to exit
/lib/modules/5.4.0-190-generic/build
[Driver] [2024-08-01 13:44:59] [INFO]Rebuilding by kernel path(/lib/modules/5.4.0-190-generic/build)

### 华为昇腾服务器中GPU卡间的互连方式及配置 华为昇腾系列AI处理器之间采用了不同的互联机制来满足不同应用场景的需求。对于昇腾910B而言,其设计特点在于每个NPU直接连接到200 GbE的网络接口[^2]。这意味着在一个装配有16张昇腾910B卡的服务器里通常会配备16个200 GbE网卡;而在拥有8张昇腾910B卡的情况下,则相应地配置8个这样的网卡。 相比之下,Atlas300I推理卡内部设备间通信依赖于PCIe 3.0 x2总线进行互联[^3]。这种方式虽然能够支持多核处理单元之间的数据交换,但由于较低的有效带宽以及硬件级别的隔离特性,在某些复杂任务下的表现可能不如预期理想,并且增加了编程难度。 值得注意的是,不同于NVIDIA利用NVLink和NVSwitch技术实现高效能内部互联的方式,昇腾910B选择了更为简单的以太网方案来进行跨节点的数据传输。尽管如此,这种设计方案同样可以有效地解决大规模分布式训练中的通讯需求,尤其是在云计算环境中提供了良好的灵活性和支持能力。 ```python # 示例代码展示如何初始化一个基于昇腾910B的集群环境(伪代码) def initialize_cluster(num_nodes, network_bandwidth="200GbE"): cluster_config = { 'nodes': num_nodes, 'network': {'type': 'Ethernet', 'bandwidth': network_bandwidth} } return Cluster(cluster_config) cluster = initialize_cluster(16) print(f"Cluster initialized with {cluster.nodes} nodes and {cluster.network['bandwidth']} bandwidth.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值