Linux并行计算&国产加速器海光DCU&GPGPU深算处理器使用FAQ

目录

DCU FAQ

硬件

产品端适配(cpu、加速卡、服务器)

虚拟化

hyqua/k8s/docker等工具

运行环境

dtk底层库

性能调优

深度学习框架/三方库


DCU FAQ

DCU常见问题汇总:

  1. 硬件
  2. 产品端适配(cpu、加速卡、服务器)
  3. 虚拟化
  4. hyqua/k8s/docker等工具
  5. 运行环境
  6. dtk底层库
  7. 性能调优
  8. 深度学习框架/三方库
  1. 硬件
    • 问:lspci | grep -i Display无显示。

      答:清理DCU加速卡金手指,请确保各插槽插紧无松动。


    • 问:BMC下看不到DCU设备,DCU上信号灯第二个灯-P3V3不亮。

      答:请联系相应技术人员查看DCU电源线型号,协助更换。


    • 问:在训练模型多个epoch后机器突然重启,且重新训练后多次遇到该问题。

      答:优先考虑散热问题,请检查是否满足服务器使用的散热条件,如果在降低DCU频率(频率降低会造成性能损失)或降低环温之后不再出现宕机情况,则散热问题可能性较大,或联系服务器提供商。


  2. 产品端适配(cpu、加速卡、服务器)
    • 问:Intel CPU+DCU加速卡服务器机型,lspci无法识别DCU。

      答:需要修改bios选项,请将MMIO High Base改为2T,建议优先使用已经进行DCU适配的intel服务器机型。


    • 问:驱动加载失败,如下图:

      答:请检查系统启动项中是否包含nomodeset选项,若存在,请删除。通常在系统启动时,按 e进入内核启动修改页面,找到以 linux16 /vmlinuz 开始的行,删除 nomodeset 字段,然后按Ctrl+x启动,如图所示:

      在系统启动之后,根据不同版本的系统要求修改 grub 文件,确保该启动项永久生效。


  3. 虚拟化
    • 问:虚拟机中CPU到DCU的带宽只有0.1GB/s左右。

      答:请使用V1.32以后的驱动。

      影响范围:所有dtk主干版本


  4. hyqua/k8s/docker等工具
    • 问:怎样通过容器分割物理机上的DCU加速卡。

      答:当需要在容器中仅出现某些加速卡时,可以将”--device=/dev/dri”替换为具体设备。例如:当使用第一张和第三张加速卡时,将”--device=/dev/dri”替换为”--device=/dev/dri/card1 --device=/dev/dri/renderD128 --device=/dev/dri/card3 --device=/dev/dri/renderD130”,其中card1,renderD128为第一张加速卡,card3,renderD130为第三张加速卡。切记此时不要再添加--privileged参数,效果如下:

      影响范围:所有dtk主干版本


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值