PyTorch Lightning 是一个基于 PyTorch 的轻量级框架,旨在简化深度学习模型的开发和训练过程。它通过抽象出常见的样板代码(如训练循环、分布式训练、检查点保存等),使研究人员和工程师能够更专注于模型的设计和实验的创新,而不用过多考虑底层的实现细节。
Pytorch Lightning框架在为我们带来便利的同时,也带来了很多麻烦,因为过于嵌套导致自由程度受限,其中Pytorch Lightning在多卡服务器上总是默认使用cuda:0对我造成了很多麻烦,直接把服务器给抹去了一半。我尝试了多种方式解决这个问题,但是都无法简单快速的解决。
现在我找到了一个很简单的方法仅用一行代码即可指定GPU,瞬间把服务器算力充沛起来了!
import pytorch_lightning as pl
from pytorch_lightning import Trainer
trainer = Trainer.from_argparse_args(args,devices=[1],accelerator='cuda')
现在我把device设置成了1卡,以下是效果