nvidia-smi查看GPU情况明明显存和使用率充足,但运行代码后计算利用率(GPU-Util)始终很低。网上查了很多资料说是CPU读写操作太多,但排查后发现主要时间用在模型的前向传播过程。但watch nvidia-smi又发现只有短时间GPU计算利用率不是0%。
百思不得其解。最后顺手kill掉一些占用GPU的程序,把显存都释放了,发现可以正常运行了,记录下提醒自己及时kill掉因为ctrl+c未及时释放GPU的程序。 显存余量越多代码算得越快,太少了会把程序卡死,不过好像算是计组的常识。。。