背景:
我想测试下prometheus的掉卡监控是否正常,那我需要模拟gpu掉卡,这个应该如何实现呢?
操作:
bus_id的解释:Bus-ID 是一个用于唯一标识 GPU 所连 接到系统中 PCIe 总线上的位置的编号, 表示该 GPU 硬件设备在系统 PCIe 拓扑结构中的位置。 它是硬件层面的地址,从系统角度来看,用来区分多个 GPU 或其他设备。
可以通过操作bus_id来禁用显卡,图例里的红框为bus_id:
(1)通过bus_id禁用单个显卡
root@node061:~# nvidia-smi drain -p 0000:55:00.0 -m 1 Successfully set GPU 00000000:55:00.0 drain state to: draining.
执行前:
执行后:
(2)如何恢复
root@node061:/opt/node_exporter/prom# nvidia-smi drain -p 0000:55:00.0 -m 0 Successfully set GPU 00000000:55:00.0 drain state to: not draining.
恢复到8张卡
如何模拟gpu服务器掉卡行为呢?
于 2024-11-27 17:25:00 首次发布