文章链接在这:https://arxiv.org/abs/2104.02057 针对训练过程中的不稳定性从batch_size、lr、优化做了分析,关注最后面的figure8 4.2 提出了a trick来提升稳定性