从一开始学习这个框架之后,我慢慢的了解了很多这个框架的强大之处,不得不感叹一下它相对于PyTorch真香。在我们研究深度学习项目的过程中,确实要涉及到很多基本的tips,这些方法在传统的PyTorch中都是需要自己去实现的,而在pl中这些东西都得到优化,目前还在发掘中。具体方法查看官方文档。如果没接触过这个框架的可以看我上一篇文章。文章https://blog.csdn.net/lzxsz_/article/details/140081429?spm=1001.2014.3001.5501。
EarlyStopping
我们平时训练过程总要通过验证集的指标来评估这个模型的好坏,Early Stopping就是防止过拟合的方法之一,pl的callback模块封装了该方法,我们不需要自己再定义。
首先导入模块是必要的:
from pytorch_lightning.callbacks import EarlyStopping
然后我们在定义了Trainer之前呢,实例化EarlyStopping:
earlystopping = EarlyStopping('val_loss', patience=hparams.patience, min_delta=0.00, mode="min")
这里的参数解释一下,第一个是指定早停的指标,我这里是val_loss,第二个patience参数是指定多少个epoch指标没有更新,就实现早停,停止训练,min_delta参数为指标的更新大小,这里是0,最后一个参数就是更新的方向,val_loss显然是越小越好。
最后将该参数作为callback传递给Trainer:
trainer = pl.Trainer(max_epochs=hparams.max_epochs, callbacks=[earlystopping],
accelerator='gpu', devices=1, logger=True)
ModelCheckPoint
这个方法是用于保存模型,和EarlyStopping的目标差不多,找到一个我们定义的指标最佳的一组参数模型,并保存到本地,用于后续的测试和预测。
导入模块:
from pytorch_lightning.callbacks import ModelCheckPoint
ModelCheckPoint和EarlyStopping一样都是属于callback的,所以导入之后只需要实例化并作为callback的参数传给Trainer即可,下面只展示实例化的过程:
checkpoint_callback = ModelCheckpoint(monitor='val_loss', # 监测指标
mode='min', # 向上更新还是向下更新
dirpath='emissions', # 保存路径
filename='emissions-{epoch:02d}-{val_loss:.2f}', # 保存文件名
save_top_k=1 # 保存指标最佳的模型个数
)
这里面都是平常能用到且自己定义的参数了,具体API可以查看官方文档。
Progress Bar (进度条)
这也是这个框架给我的一个惊喜,它里面封装了两种可供使用的进度条,第一次使用的时候让人眼光一亮。众所周知,我们用PyTorch写训练过程的时候,loss都是通过一行print来打印出来的,并且如果epoch数量过多很难查看到前面几个epoch的训练结果(眼花缭乱)。pl提供了TQDMProgressBar,RichProgressBar两种进度条显示,默认情况是使用TQDM。
这里展示一下这两种进度条的效果,首先是TQDM的进度条
这是默认的进度条,我们可以很清楚地看到里面地训练过程。首先实例化model的时候就会打印出里面的模型模块和参数量,供用户观看。其次,训练的过程中我们可以清楚地看到记录的训练指标,这个指标可以在我们定义LightningModule的时候通过self.log来添加,并设置prog_bar=True,就可以清晰地显示在进度条上。
下面是Rich进度条的训练过程,
其实大同小异啦,但是这两者的Bar还可以自己定义,具体是怎么定义的可以查看官方文档。下面还有一个测试的过程,
测试的指标会通过表格的形式,当我们调用trainer.test()的时候就可以触发这个,确实是让人眼前一亮的UI。
下面是如何导入这两个,
from pytorch_lightning.callbacks import TQDMProgressBar, RichProgressBar
实际上,如果更喜欢TQDM或者无所谓的话,这一部分也没有必要加到代码里,但是我想着记录下来。
下面是如何实例化的代码:
progress_bar = RichProgressBar() # 实例化progress bar
trainer = pl.Trainer(callback=[progress_bar]) # 加入到callback参数里面
seed_everything() 固定随机种子
这也是我查看文档的时候最近发现的。做项目的过程中,我们通常得到一些好的结果之后希望可以复现,通常是需要固定torch,numpy的随机数,从而保证结果可复现。然而这个过程中可能经常会哪个地方遗漏了就导致每次跑出来的结果不一致,需要冗余的添加代码,pl的模块提供了该方法,只需要调用,一行代码即可固定。
我先给出之前自己跑深度学习的时候定义的固定随机种子函数,以供参考
def set_random_seed(seed): # 固定随机种子
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed(seed)
torch.cuda.manual_seed_all(seed)
torch.backends.cudnn.benchmark = False
torch.backends.cudnn.deterministic = True
然后下面是如何通过pl来调用固定随机种子的方法:
# 导入模块
from pytorch_lightning import seed_everything
# 模型定义的过程略过,直接到主函数调用该方法即可
if "__name__" = "__main__":
init_seed = 42
seed_everything(init_seed) # 固定随机种子
# 下面进行实例化代码,略过
save_hyperparameters (保存超参数)
这也是我查看官方文档之后,学会了这个方法,改变了自己的代码编写方式,记录下来。
我们在实例化模型的时候,往往会遇到一大堆的超参数,这些超参数都是需要自己定义的,为了管理超参数,可以使用这个方法,并配合argparse使用。
具体而言,我会将所有的超参数保存在一个列表里面,通过argparse库来管理:
import argparse
# parser 定义并解析命令行参数
parser = argparse.ArgumentParser(description='My Deep Learning')
parser.add_argument('--input_size', type=int, default=1, help='input size of NN')
parser.add_argument('--hidden_size', type=int, default=64, help='Dimensionality of hidden layers in NN')
parser.add_argument('--output_size', type=int, default=1, help='output size of NN')
# 包含了从命令行解析得到的参数值,这些值以属性的形式存储在 hparams 对象中
# 比如想获取到超参数的batch_size,使用hparams.batch_size即可获得
hparams = parser.parse_args()
这样的话,我们定义模型的时候就可以只传入hparams一个参数,并继承LightningModule定义模型:
import pytorch_lightning as pl
# 示例模型
# 全连接层(Linear)
class FullyConnected(pl.LightningModule):
def __init__(self, hparams=None): # 这里初始化的时候只传入hparams
super(FullyConnected, self).__init__()
save_hyperparameters(hparams) # 这里保存所有超参数
self.input_dim = hparams.input_size
self.hidden_dim = hparams.hidden_size
self.output_dim = hparams.output_size
self.fc1 = nn.Linear(input_dim, hidden_dim)
self.relu = nn.ReLU()
self.fc2 = nn.Linear(hidden_dim, output_dim)
def forward(self, x):
x = self.fc1(x)
x = self.relu(x)
x = self.fc2(x)
return x
这样我们在调用Trainer.fit()来训练模型的时候,pl的模块就会读入hparams,并通过该函数保存所有超参数。这里有一点要注意,Trainer的logger参数不要设置为Fault(默认值就是True)。这样在我们训练完模型之后,本地的目录下面/lightning_log/version{x} 里面有一个hparams.yaml文件,保存了所有超参数,这里的version{x}目录是默认情况下记录的最后一个version。
使用了这个方法不仅使得代码的可读性更高,而且超参数更好管理,调参更方便了。
以上就是我目前所整理的所有tips,以后有遇到方便的方法还会记录下来,具体方法和各种API查看官方文档。