一般把网络中具有**可学习参数的层放在构造函数__init__()**中,不具有可学习参数的层(如ReLU)可放在构造函数中。
梯度裁剪:解决梯度消失/爆炸(就是偏导无限接近0,导致长时记忆无法更新):
- 当梯度小于/大于阈值时,更新的梯度为阈值。
- 根据参数的范数来衡量clip_grad_norm()
一般把网络中具有**可学习参数的层放在构造函数__init__()**中,不具有可学习参数的层(如ReLU)可放在构造函数中。
梯度裁剪:解决梯度消失/爆炸(就是偏导无限接近0,导致长时记忆无法更新):
4098
1万+
6544

被折叠的 条评论
为什么被折叠?