PyTorch Lightning使用过程中的tips

从一开始学习这个框架之后,我慢慢的了解了很多这个框架的强大之处,不得不感叹一下它相对于PyTorch真香。在我们研究深度学习项目的过程中,确实要涉及到很多基本的tips,这些方法在传统的PyTorch中都是需要自己去实现的,而在pl中这些东西都得到优化,目前还在发掘中。具体方法查看官方文档。如果没接触过这个框架的可以看我上一篇文章。文章icon-default.png?t=N7T8https://blog.csdn.net/lzxsz_/article/details/140081429?spm=1001.2014.3001.5501

EarlyStopping

我们平时训练过程总要通过验证集的指标来评估这个模型的好坏,Early Stopping就是防止过拟合的方法之一,pl的callback模块封装了该方法,我们不需要自己再定义。

首先导入模块是必要的:

from pytorch_lightning.callbacks import EarlyStopping

然后我们在定义了Trainer之前呢,实例化EarlyStopping:

earlystopping = EarlyStopping('val_loss', patience=hparams.patience, min_delta=0.00, mode="min")

这里的参数解释一下,第一个是指定早停的指标,我这里是val_loss,第二个patience参数是指定多少个epoch指标没有更新,就实现早停,停止训练,min_delta参数为指标的更新大小,这里是0,最后一个参数就是更新的方向,val_loss显然是越小越好。

最后将该参数作为callback传递给Trainer:

trainer = pl.Trainer(max_epochs=hparams.max_epochs, callbacks=[earlystopping], 
                     accelerator='gpu', devices=1, logger=True)

ModelCheckPoint

这个方法是用于保存模型,和EarlyStopping的目标差不多,找到一个我们定义的指标最佳的一组参数模型,并保存到本地,用于后续的测试和预测。

导入模块:

from pytorch_lightning.callbacks import ModelCheckPoint

ModelCheckPoint和EarlyStopping一样都是属于callback的,所以导入之后只需要实例化并作为callback的参数传给Trainer即可,下面只展示实例化的过程:

checkpoint_callback = ModelCheckpoint(monitor='val_loss', # 监测指标
                                        mode='min', # 向上更新还是向下更新
                                        dirpath='emissions', # 保存路径
                                        filename='emissions-{epoch:02d}-{val_loss:.2f}', # 保存文件名
                                        save_top_k=1 # 保存指标最佳的模型个数
                                      )

这里面都是平常能用到且自己定义的参数了,具体API可以查看官方文档。

Progress Bar (进度条)

这也是这个框架给我的一个惊喜,它里面封装了两种可供使用的进度条,第一次使用的时候让人眼光一亮。众所周知,我们用PyTorch写训练过程的时候,loss都是通过一行print来打印出来的,并且如果epoch数量过多很难查看到前面几个epoch的训练结果(眼花缭乱)。pl提供了TQDMProgressBar,RichProgressBar两种进度条显示,默认情况是使用TQDM。

这里展示一下这两种进度条的效果,首先是TQDM的进度条

这是默认的进度条,我们可以很清楚地看到里面地训练过程。首先实例化model的时候就会打印出里面的模型模块和参数量,供用户观看。其次,训练的过程中我们可以清楚地看到记录的训练指标,这个指标可以在我们定义LightningModule的时候通过self.log来添加,并设置prog_bar=True,就可以清晰地显示在进度条上。

下面是Rich进度条的训练过程,

其实大同小异啦,但是这两者的Bar还可以自己定义,具体是怎么定义的可以查看官方文档。下面还有一个测试的过程,

测试的指标会通过表格的形式,当我们调用trainer.test()的时候就可以触发这个,确实是让人眼前一亮的UI。

下面是如何导入这两个,

from pytorch_lightning.callbacks import TQDMProgressBar, RichProgressBar

实际上,如果更喜欢TQDM或者无所谓的话,这一部分也没有必要加到代码里,但是我想着记录下来。

下面是如何实例化的代码:

progress_bar = RichProgressBar() # 实例化progress bar
trainer = pl.Trainer(callback=[progress_bar]) # 加入到callback参数里面

seed_everything() 固定随机种子

这也是我查看文档的时候最近发现的。做项目的过程中,我们通常得到一些好的结果之后希望可以复现,通常是需要固定torch,numpy的随机数,从而保证结果可复现。然而这个过程中可能经常会哪个地方遗漏了就导致每次跑出来的结果不一致,需要冗余的添加代码,pl的模块提供了该方法,只需要调用,一行代码即可固定。

我先给出之前自己跑深度学习的时候定义的固定随机种子函数,以供参考

def set_random_seed(seed): # 固定随机种子
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.benchmark = False
    torch.backends.cudnn.deterministic = True

然后下面是如何通过pl来调用固定随机种子的方法:

# 导入模块
from pytorch_lightning import seed_everything 

# 模型定义的过程略过,直接到主函数调用该方法即可
if "__name__" = "__main__":
    init_seed = 42
    seed_everything(init_seed) # 固定随机种子

# 下面进行实例化代码,略过

save_hyperparameters (保存超参数)

这也是我查看官方文档之后,学会了这个方法,改变了自己的代码编写方式,记录下来。

我们在实例化模型的时候,往往会遇到一大堆的超参数,这些超参数都是需要自己定义的,为了管理超参数,可以使用这个方法,并配合argparse使用。

具体而言,我会将所有的超参数保存在一个列表里面,通过argparse库来管理:

import argparse

# parser 定义并解析命令行参数
parser = argparse.ArgumentParser(description='My Deep Learning')
parser.add_argument('--input_size', type=int, default=1, help='input size of NN')
parser.add_argument('--hidden_size', type=int, default=64, help='Dimensionality of hidden layers in NN')
parser.add_argument('--output_size', type=int, default=1, help='output size of NN')

# 包含了从命令行解析得到的参数值,这些值以属性的形式存储在 hparams 对象中
# 比如想获取到超参数的batch_size,使用hparams.batch_size即可获得
hparams = parser.parse_args()

这样的话,我们定义模型的时候就可以只传入hparams一个参数,并继承LightningModule定义模型:

import pytorch_lightning as pl

# 示例模型
# 全连接层(Linear)
class FullyConnected(pl.LightningModule):
    def __init__(self, hparams=None): # 这里初始化的时候只传入hparams
        super(FullyConnected, self).__init__()
        save_hyperparameters(hparams) # 这里保存所有超参数
        self.input_dim = hparams.input_size
        self.hidden_dim = hparams.hidden_size
        self.output_dim = hparams.output_size

        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

这样我们在调用Trainer.fit()来训练模型的时候,pl的模块就会读入hparams,并通过该函数保存所有超参数。这里有一点要注意,Trainer的logger参数不要设置为Fault(默认值就是True)。这样在我们训练完模型之后,本地的目录下面/lightning_log/version{x} 里面有一个hparams.yaml文件,保存了所有超参数,这里的version{x}目录是默认情况下记录的最后一个version。

使用了这个方法不仅使得代码的可读性更高,而且超参数更好管理,调参更方便了。

以上就是我目前所整理的所有tips,以后有遇到方便的方法还会记录下来,具体方法和各种API查看官方文档

  • 16
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch Lightning是一个用于训练和部署深度学习模型的轻量级框架。它基于PyTorch,提供了一种简单易用的方式来组织、管理和扩展PyTorch代码。 以下是PyTorch Lightning使用方法: 1. 安装PyTorch Lightning 可以通过以下命令安装PyTorch Lightning: ``` pip install pytorch-lightning ``` 2. 创建模型 创建一个PyTorch模型,继承`pl.LightningModule`类,并实现`training_step`、`validation_step`和`test_step`方法。例如: ```python import torch.nn as nn import torch.optim as optim import pytorch_lightning as pl class MyModel(pl.LightningModule): def __init__(self): super().__init__() self.fc1 = nn.Linear(28*28, 64) self.fc2 = nn.Linear(64, 10) self.loss_fn = nn.CrossEntropyLoss() def forward(self, x): x = x.view(x.size(0), -1) x = nn.functional.relu(self.fc1(x)) x = self.fc2(x) return x def training_step(self, batch, batch_idx): x, y = batch y_hat = self.forward(x) loss = self.loss_fn(y_hat, y) self.log('train_loss', loss) return loss def validation_step(self, batch, batch_idx): x, y = batch y_hat = self.forward(x) loss = self.loss_fn(y_hat, y) self.log('val_loss', loss) return loss def test_step(self, batch, batch_idx): x, y = batch y_hat = self.forward(x) loss = self.loss_fn(y_hat, y) self.log('test_loss', loss) return loss def configure_optimizers(self): return optim.Adam(self.parameters(), lr=1e-3) ``` 3. 创建数据模块 创建一个`pl.LightningDataModule`类,实现`train_dataloader`、`val_dataloader`和`test_dataloader`方法,以加载训练、验证和测试数据。例如: ```python import torchvision.datasets as datasets import torchvision.transforms as transforms class MNISTDataModule(pl.LightningDataModule): def __init__(self, data_dir='./data'): super().__init__() self.data_dir = data_dir self.transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) def prepare_data(self): datasets.MNIST(self.data_dir, train=True, download=True) datasets.MNIST(self.data_dir, train=False, download=True) def train_dataloader(self): return torch.utils.data.DataLoader( datasets.MNIST(self.data_dir, train=True, transform=self.transform), batch_size=32, shuffle=True, num_workers=4 ) def val_dataloader(self): return torch.utils.data.DataLoader( datasets.MNIST(self.data_dir, train=False, transform=self.transform), batch_size=32, shuffle=False, num_workers=4 ) def test_dataloader(self): return torch.utils.data.DataLoader( datasets.MNIST(self.data_dir, train=False, transform=self.transform), batch_size=32, shuffle=False, num_workers=4 ) ``` 4. 训练模型 使用`pl.Trainer`类训练模型。例如: ```python model = MyModel() data_module = MNISTDataModule() trainer = pl.Trainer(max_epochs=10, gpus=1) trainer.fit(model, data_module) ``` 5. 测试模型 使用`pl.Trainer`类测试模型。例如: ```python trainer.test(model, data_module) ``` 以上就是PyTorch Lightning使用方法。通过使用PyTorch Lightning,可以更加方便地组织和管理PyTorch代码,并实现更加高效的训练和部署。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值