出自ICML2018的paper 《GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks》
gradnorm是一种优化方法,在多任务学习(Multi-Task Learning)中,解决 1. 不同任务loss梯度的量级(magnitude)不同,造成有的task在梯度反向传播中占主导地位,模型过分学习该任务而忽视其它任务;2. 不同任务收敛速度不一致;这两个问题。
Gradient Normalization(GradNorm) 梯度归一化(梯度标准化)
最新推荐文章于 2024-07-05 20:51:53 发布