增大batchsize训练模型,一般都能带来一定的提升。在显卡内存不够的情况下,可以通过梯度累积的方式,来扩大batchsize。
因为pytorch中,反向传播之后,梯度是不清零的,因此要实现梯度累积,比较简单
不使用梯度累积的情况下,训练代码:
for i, (input_id, label) in enumerate(train_loader):
# 1. 模型输出
pred = model(input_id)
loss = criterion(pred, label)
# 2. 反向传播
optimizer.zero_grad()
# 梯度清空
loss.backward()
# 反向传播,计算梯度
optimizer.step()
# 根据梯度,更新网络参数
使用梯度累积,训练代码:
for i,(input_id, label) in enumerate(train_loader):
# 1. 模型输出
pred = model(input_id)
loss = criterion(pred, label)
# 2.1 损失规范
loss = loss / accumulation_steps
# 2.2 反向传播,计算梯度
loss.backward()
if (i+1) % accumulation_steps == 0:
optimizer.step()
# 更新参数
optimizer.zero_grad()
# 梯度清空,为下一次反向传播做准备
(1)关于损失规范
我的理解是,相当于loss计算的时候,需要对batch中的每个样本求平均,这里累积多个batch也需要求平均。 也相当于多次梯度求和,再平均
(2)关于学习率如何变化
如果训练epoch不变,那个参数更新的次数也减少为原来的1/ accumulation_steps 次,因此学习率要调大(或者增大epoch)
此外, 还有两点要注意
(1)使用BN层的情况下,梯度累积的方式在统计方差和均值,没有真正的大batchsize准确
(2)学习率变化策略设置,可能和参数更新次数有关,这里也需要注意
自己的一些实验, 可以供大家参考。
这里我没有考虑上面的两个注意点,学习率在训练过程中是不变的,使用bert进行分类,指标是F1值,训练最大epoch均设为10
实验设置 | 数据集1:F1值 | 数据集2:F1值 |
batchsize=20 (学习率2e-5) | 76.4 | 42.8 |
梯度累积2次 (学习率2e-5,batchsize=10*2) | 77.0 | 45.0 |
梯度累积6次 (2e-5 *3 =6e-5,batchsize=10*6) | 75.4 | 34.3 |
梯度累积6次 ( 5e-5,batchsize=10*6) | 77.2 | 41.4 |
从以上三行,暂时并不能得出什么结论,batchsize增大到60效果差了很多,也有可能将学习率变为原来的6倍太大了。将学习率稍微减小一点,结果稍微正常点。学习率的设置还是比较关键的