使用DistributedDataParallel(DDP)时遇到额外进程导致GPU0显存不均衡的问题
可以看出,载入模型时,先被载入到cpu然后移动到对应设备,这里对应设备指的是GPU0,而通过指定参数map_location,可以使用对应设备进行载入。,查看显存占用,发现GPU0占用相较于其他GPU更高,并且每一个进程都在GPU上有占用,当显存较为紧张时,可能导致爆显存。然而,通过解决方法1,并未能解决我的问题。通过google,最终找到了解决该问题的方式。pytorch在load模型时,通过查看pytorch官方文档可以发现,方法,在未指定map_location时,
原创
2023-05-22 21:05:41 ·
1029 阅读 ·
0 评论