pytorch梯度累积

增大batchsize训练模型,一般都能带来一定的提升。在显卡内存不够的情况下,可以通过梯度累积的方式,来扩大batchsize。

因为pytorch中,反向传播之后,梯度是不清零的,因此要实现梯度累积,比较简单

不使用梯度累积的情况下,训练代码:

for i, (input_id, label) in enumerate(train_loader):
    # 1. 模型输出
    pred = model(input_id)
    loss = criterion(pred, label)

    # 2. 反向传播
    optimizer.zero_grad()   
    # 梯度清空
    loss.backward()
    # 反向传播,计算梯度
    optimizer.step()
    # 根据梯度,更新网络参数

使用梯度累积,训练代码:

for i,(input_id, label) in enumerate(train_loader):
    # 1. 模型输出
    pred = model(input_id)
    loss = criterion(pred, label)

    # 2.1 损失规范
    loss = loss / accumulation_steps  
 
    # 2.2 反向传播,计算梯度
    loss.backward()

    if (i+1) % accumulation_steps == 0:
        optimizer.step() 
        # 更新参数
        optimizer.zero_grad() 
        # 梯度清空,为下一次反向传播做准备
    

(1)关于损失规范

我的理解是,相当于loss计算的时候,需要对batch中的每个样本求平均,这里累积多个batch也需要求平均。 也相当于多次梯度求和,再平均

(2)关于学习率如何变化

如果训练epoch不变,那个参数更新的次数也减少为原来的1/ accumulation_steps 次,因此学习率要调大(或者增大epoch)

此外, 还有两点要注意

(1)使用BN层的情况下,梯度累积的方式在统计方差和均值,没有真正的大batchsize准确

(2)学习率变化策略设置,可能和参数更新次数有关,这里也需要注意

自己的一些实验, 可以供大家参考。

这里我没有考虑上面的两个注意点,学习率在训练过程中是不变的,使用bert进行分类,指标是F1值,训练最大epoch均设为10

实验设置数据集1:F1值数据集2:F1值

batchsize=20

(学习率2e-5)

76.442.8

梯度累积2次

(学习率2e-5,batchsize=10*2)

77.045.0

梯度累积6次

(2e-5 *3 =6e-5,batchsize=10*6)

75.434.3

梯度累积6次

( 5e-5,batchsize=10*6)

77.241.4

从以上三行,暂时并不能得出什么结论,batchsize增大到60效果差了很多,也有可能将学习率变为原来的6倍太大了。将学习率稍微减小一点,结果稍微正常点。学习率的设置还是比较关键的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旺旺棒棒冰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值