目录
DCU FAQ
DCU常见问题汇总:
-
硬件
-
问:
lspci | grep -i Display
无显示。答:清理DCU加速卡金手指,请确保各插槽插紧无松动。
-
问:BMC下看不到DCU设备,DCU上信号灯第二个灯-P3V3不亮。
答:请联系相应技术人员查看DCU电源线型号,协助更换。
-
问:在训练模型多个epoch后机器突然重启,且重新训练后多次遇到该问题。
答:优先考虑散热问题,请检查是否满足服务器使用的散热条件,如果在降低DCU频率(频率降低会造成性能损失)或降低环温之后不再出现宕机情况,则散热问题可能性较大,或联系服务器提供商。
-
-
产品端适配(cpu、加速卡、服务器)
-
问:Intel CPU+DCU加速卡服务器机型,lspci无法识别DCU。
答:需要修改bios选项,请将MMIO High Base改为2T,建议优先使用已经进行DCU适配的intel服务器机型。
-
问:驱动加载失败,如下图:
答:请检查系统启动项中是否包含nomodeset选项,若存在,请删除。通常在系统启动时,按 e进入内核启动修改页面,找到以 linux16 /vmlinuz 开始的行,删除 nomodeset 字段,然后按Ctrl+x启动,如图所示:
在系统启动之后,根据不同版本的系统要求修改 grub 文件,确保该启动项永久生效。
-
-
虚拟化
-
问:虚拟机中CPU到DCU的带宽只有0.1GB/s左右。
答:请使用V1.32以后的驱动。
影响范围:所有dtk主干版本
-
-
hyqua/k8s/docker等工具
-
问:怎样通过容器分割物理机上的DCU加速卡。
答:当需要在容器中仅出现某些加速卡时,可以将”--device=/dev/dri”替换为具体设备。例如:当使用第一张和第三张加速卡时,将”--device=/dev/dri”替换为”--device=/dev/dri/card1 --device=/dev/dri/renderD128 --device=/dev/dri/card3 --device=/dev/dri/renderD130”,其中card1,renderD128为第一张加速卡,card3,renderD130为第三张加速卡。切记此时不要再添加--privileged参数,效果如下:
影响范围:所有dtk主干版本
-