背景: BP在产生的过程中:会产生梯度消失/梯度爆炸。 为了阻止这种情况发生 优点与缺点: 优点:简单粗暴缺点:很难找到满意的阈值 代码: torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=20) 参考:https://www.cnblogs.com/lindaxin/p/7998196.html