模型训练时CPU和GPU大幅度波动——可能是数据的加载拖后腿
问题
在进行猫狗大战分类任务时,发现模型训练时CPU和GPU大幅度波动,且模型训练速度很慢。
原因
初步分析可能是数据加载(包括数据的transform,我用了Resize,ToTensor,Normalize这三个操作)的的速度太慢,于是通过计算一个epoch数据加载的时间来判断,最后发现数据加载的数据和一个epoch训练的时间差不太多(因为用的模型较小,是ResNet18,如果模型比较大,训练时间比数据加载时间大得多的时候,这种情况CPU和GPU的波动频率和幅度会好很多,情况最好的是,在训练一个完batch的数据前,下一个batch的数据已经准备好了)。测量加载时间代码如下:
import time
from torch.utils.data import DataLoader
data_loader = DataLoader(dataset, batch_size=64)
start_time = time.time()
# 遍历数据加载器中的所有批次
for i, data in enumerate(data_loader):
pass
end_time = time.time()
# 计算并打印整个数据读取的时间
total_time = end_time - start_time
print(