模型训练时CPU和GPU大幅度波动——可能是数据的读入拖后腿

本文链接：https://blog.csdn.net/jokerMingge/article/details/142371691

模型训练时CPU和GPU大幅度波动——可能是数据的加载拖后腿

问题

在进行猫狗大战分类任务时，发现模型训练时CPU和GPU大幅度波动，且模型训练速度很慢。

原因

初步分析可能是数据加载（包括数据的transform，我用了Resize，ToTensor，Normalize这三个操作）的的速度太慢，于是通过计算一个epoch数据加载的时间来判断，最后发现数据加载的数据和一个epoch训练的时间差不太多(因为用的模型较小，是ResNet18，如果模型比较大，训练时间比数据加载时间大得多的时候，这种情况CPU和GPU的波动频率和幅度会好很多，情况最好的是，在训练一个完batch的数据前，下一个batch的数据已经准备好了)。测量加载时间代码如下：

import time
from torch.utils.data import DataLoader

data_loader = DataLoader(dataset, batch_size=64)
start_time = time.time()

# 遍历数据加载器中的所有批次
for i, data in enumerate(data_loader):
    pass

end_time = time.time()
# 计算并打印整个数据读取的时间
total_time = end_time - start_time
print(