之前说过每天大概要搞出来5篇paper,结果果然翘了。为了能够搞出来,现在我们就把这些任务放在CSDN上吧。 事实证明,这个世界上有大一堆非常有趣的关于Batch Normalization,Skip Connection之类的东西。下面是几篇文章。 ReZero这篇文章列了几个简单的方法。具体见图: 如果这个不够酷炫的话,那么IC这篇就更有意思了。基本思路是加一个Whitening。 一些其他关于Layernorm的讨论引发了这一堆各种各样的连接法 关于这个,