深度学习中的BN_CBN_CmBN
BN:
反向传播时经过该层的梯度是要乘以该层的参数的,即前向有:
反向传播时便有:
那么考虑从l层传到k层的情况,有:
其中这个
便是问题所在。如果Wi小于1,就会发生提督弥散
而如果Wi大于1,那么传到这里的时候又会有梯度爆炸问题
BN所做的就是解决这个梯度传播的问题,因为BN作用抹去了w的scale影响。
BN为了保证非线性的获得,对变换后的满足均值为0方差为1的x又进行了scale加上shift操作(y=scale*x+shift),每个神经元增加了两个参数
原创
2020-08-04 20:16:05 ·
5844 阅读 ·
2 评论