2024/4/15—2024/4/21学习记录
2024/4/18
1、register_buffer()的使用
回顾模型保存:torch.save(model.state_dict()),model.state_dict()是一个字典,里边存着我们模型各个部分的参数。
在model中,我们需要更新其中的参数,训练结束将参数保存下来。但在某些时候,我们可能希望模型中的某些参数参数不更新(从开始到结束均保持不变),但又希望参数保存下来(model.state_dict() ),这是我们就会用到 register_buffer() 。
定义模型能用torch.save保存的、但是不更新参数
使用:是要是nn.Module的子类就能直接**self.**调用使用:
class A(nn.Module):
#...
self.register_buffer(
'betas', torch.linspace(beta_1, beta_T, T).double())
#...
2、手动定义参数
上述的参数显然可以直接用一个变量直接定义超参。但是缺点是在用torch.save()保存的时候不能保存在参数里面,只能用文本文件保存在外面。不能直接用torch.load加载,不是很方便。
举个例子,假设你有100个超参,难不成要一个一个记录之后,手动造轮子解析保存的txt嘛?当然也行但是麻烦。
3、总结
成员变量:不更新,但是不算是模型中的参数(model.state_dict())
通过register_buffer()登记过的张量:会自动成为模型中的参数,随着模型移动(gpu/cpu)而移动,但是不会随着梯度进行更新。