【 深度学习李宏毅 】 Batch Normalization (中文)_哔哩哔哩_bilibili
Batch Normalization_哔哩哔哩_bilibili
我们可以看到这里由于x1与x2的巨大分布差异性导致w1和w2对于loss的影响是不同的,loss对于w2的导数较大,对于w1的导数较小,这就导致了如果想要loss往最快的方向减小,w1和w2需要调整的的大小差距也过大,但是learn rate一般都是一样的,所以为了解决这个问题,我们需要将输入调整到尽量相似的分布,此外下图也比较有道理
Batch Normalization原理_batch nomalization的基本原理是什么?以理解的方式介绍大概步骤,与layemorm区-CSDN博客