traning loss不下降的原因——深坑记录

最新推荐文章于 2022-11-16 17:14:19 发布

二叉树不是树_ZJY

最新推荐文章于 2022-11-16 17:14:19 发布

阅读量666

点赞数

分类专栏：自然语言处理文章标签： loss 深度学习梯度下降参数更新优化器

本文链接：https://blog.csdn.net/qq_42341984/article/details/121319369

版权

自然语言处理专栏收录该内容

21 篇文章 3 订阅

订阅专栏

前言

这是一次浪费了我一周时间（做了62次实验）的深坑记录，说多了都是心酸。在开源代码的基础上，为了简化封装，重构了其代码，模型结构等等保持不变，但training loss始终不下降，极其稳定。
在这里插入图片描述

找bug的过程

检查了模型结构和参数维度

检查注明🌟的地方：

for epoch in range(sp.num_epochs):
   # Update model parameters
   sp.train() # 🌟

   for step, mini_batch in enumerate(tqdm(train_loader, total=len(train_loader))):
       wandb.log({'learning_rate': sp.optim.param_groups[0]['lr']})
       wandb.log({'fine_tuning_rate': sp.optim.param_groups[1]['lr']})

       formatted_batch = sp.format_batch(mini_batch)
       loss = sp.loss(formatted_batch)
       loss.backward()	# 🌟
       epoch_losses.append(float(loss))
       
       # Update parameters
       sp.optim.step()	# 🌟
       sp.optim.zero_grad()	# 🌟

最终原因

发现先定义了优化器，才定义的model，导致优化器中的params待更新的参数为空，更新了个寂寞！

# Optimizer
self.optim = optim.Adam(
[
    {'params': [p for n, p in self.named_parameters() if not 'trans_parameters' in n and p.requires_grad]},
    {'params': [p for n, p in self.named_parameters() if 'trans_parameters' in n and p.requires_grad],
     'lr': self.bert_finetune_rate}
], lr=self.learning_rate)

# Construct NN model
self.mdl = Seq2Seq_PG(args, self.in_vocab, self.out_vocab)

修正

调换顺序，先定义模型，最后定义优化器

# Construct NN model
self.mdl = Seq2Seq_PG(args, self.in_vocab, self.out_vocab)

# Optimizer
self.optim = optim.Adam(
[
    {'params': [p for n, p in self.named_parameters() if not 'trans_parameters' in n and p.requires_grad]},
    {'params': [p for n, p in self.named_parameters() if 'trans_parameters' in n and p.requires_grad],
     'lr': self.bert_finetune_rate}
], lr=self.learning_rate)

二叉树不是树_ZJY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
traning loss不下降的原因——深坑记录

前言这是一次浪费了我一周时间（做了62次实验）的深坑记录，说多了都是心酸。在开源代码的基础上，为了简化封装，重构了其代码，模型结构等等保持不变，但training loss始终不下降，极其稳定。找bug的过程检查了模型结构和参数维度检查注明????的地方：for epoch in range(sp.num_epochs): # Update model parameters sp.train() # ???? for step, mini_batch in enumerate
复制链接

扫一扫