问题描述:进行模型推理时,监控GPU和显存使用率,发现每一次推理,显存都会上升,监控不到显存下降,高并发进行推理时,显存不足退出。
解决:
使用
torch.cuda.empty_cache()
在每次推理结束后都都手动释放显存,可以监控到显存释放,问题解决。
问题描述:进行模型推理时,监控GPU和显存使用率,发现每一次推理,显存都会上升,监控不到显存下降,高并发进行推理时,显存不足退出。
解决:
使用
torch.cuda.empty_cache()
在每次推理结束后都都手动释放显存,可以监控到显存释放,问题解决。