- 博客(2)
- 收藏
- 关注
原创 使用多线程监听模型训练过程中实际显存占用nvidia-smi
在使用torch.cuda.max_allocated_memory时只能返回torch tensor占用显存大小,需要加上模型的大小,而模型的加载大小也不是单纯的model文件夹的大小,此时只能使用watch -n 0.1 nvidia-smi的指令进行人肉监听。除此外,TRT等运行时也不支持torch.cuda的方法。这里我开了个线程用于监听内存。
2023-09-08 16:44:13
157
2
原创 D2L,Pytorch win10下使用dataloader时出现runtimeerror: dataloader worker (pid(s) ) exited unexpectedly的解决方案
我是用python3.8+pytorch1.11,在李沐老师的课程展示中使用的环境是linux没有报错,但win10下在dataloader使用前需要加上。网上还有其他方法将num_worker设为0也可以单线程成功运行,不过直接导入d2l的dataloader没有对应的参数。freeze_support()函数在linux和类unix系统上可直接运行,在windows系统中需要跟在main后边。程序在运行时启用了多线程,而多线程的使用用到了freeze_support()函数。
2023-03-29 20:07:45
7380
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人