[trick]梯度累加

栋次大次

已于 2022-06-26 23:23:45 修改

阅读量313

点赞数

分类专栏：深度学习总结

于 2022-03-18 15:48:18 首次发布

本文链接：https://blog.csdn.net/weixin_39529413/article/details/123576793

版权

pytorch 深度学习人工智能

深度学习总结专栏收录该内容

11 篇文章 3 订阅

订阅专栏

简单来说，计算1次梯度，梯度不清空，不断累加，累加一定次数后，根据累加的梯度更新网络参数，然后清空梯度，进行下一次循环。（变相的扩大了batchsize，如果accumulation_steps 为 8，则batchsize变相扩大8倍）

batchsize 扩大，梯度越平滑，减少抖动，相应的可以取较大的learning_rate。

pytorch为例：正常的训练过程

for i, (inputs, labels) in enumerate(trainloader):
    optimizer.zero_grad()                   # 梯度清零
    outputs = net(inputs)                   # 正向传播
    loss = criterion(outputs, labels)       # 计算损失
    loss.backward()                         # 反向传播，计算梯度
    optimizer.step()                        # 更新参数
    if (i+1) % evaluation_steps == 0:
        evaluate_model()

梯度累加：

for i, (inputs, labels) in enumerate(trainloader):
    outputs = net(inputs)                   # 正向传播
    loss = criterion(outputs, labels)       # 计算损失函数
    loss = loss / accumulation_steps        # 损失标准化
    loss.backward()                         # 反向传播，计算梯度
    if (i+1) % accumulation_steps == 0:
        optimizer.step()                    # 更新参数
        optimizer.zero_grad()               # 梯度清零
        if (i+1) % evaluation_steps == 0:
            evaluate_model()