【深度学习训练流程】浅析深度学习训练流程

桐原因

已于 2022-04-05 14:50:17 修改

阅读量4k

点赞数 1

分类专栏：深度学习文章标签：深度学习 torch NLP 梯度下降

于 2022-04-05 14:49:10 首次发布

本文链接：https://blog.csdn.net/qq_36287702/article/details/123969131

版权

深度学习专栏收录该内容

25 篇文章 6 订阅

订阅专栏

深度学习训练流程是一套固定的模板

optimizer定义，选择不同的optimizer，权重衰减，梯度更新。
scheduler定义，选择不同的scheduler，进行学习率的更新。（可选，可不使用scheduler进行学习率更新，设为None，则学习率为恒定值）
model初始化，选择使用GPU训练还是CPU训练
loss选择优化函数，

for epoch in range(epochs):# 训练几个epoch
    for batch_data in range(train_data):
        # 按照事先定义batch进行shuffle抽取数据，输入模型中训练
        loss = model(**batch_data)
        loss.backward() # 进行梯度反向计算，更新模型所有的权重
        #可选 ，梯度剪裁，防止梯度爆炸
        torch.nn.utils.clip_grad_norm_(
                self.module.parameters(),
                grad_clip
            )
        optimizer.step() # 基于backward的梯度，继续梯度下降计算。
        scheduler.step() # 更新学习率
        optimizer.zero_grad() # 将梯度清零，防止上一个batch的grad对当前batch的影响  （这里有时候会写成 model.zero_grad()）

model.zero_grad():
将所有模型参数的梯度置为0

optimizer.zero_grad():
清除所有优化的torch.Tensor的梯度

详细请参考：

model.zero_grad() vs optimizer.zero_grad()

理解optimizer.zero_grad(), loss.backward(), optimizer.step()的作用及原理

详解torch.nn.utils.clip_grad_norm_ 的使用与原理

桐原因

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【深度学习训练流程】浅析深度学习训练流程

深度学习训练流程是一套固定的模板optimizer定义，选择不同的optimizer，权重衰减，梯度更新。scheduler定义，选择不同的scheduler，进行学习率的更新。（可选，可不使用scheduler进行学习率更新，设为None，则学习率为恒定值）model初始化，选择使用GPU训练还是CPU训练loss选择优化函数，for epoch in range(epochs):# 训练几个epoch for batch_data in range(train_data):
复制链接

扫一扫