公众号关注 “ML-CVer”
设为 “星标”,DLCV消息即可送达!
编辑:CVDaily
https://www.zhihu.com/question/283715823
本文仅作为学术分享,如果侵权,会删文处理
BN 放在ReLU的前面还是后面?这个问题是AI面试的高频题
Batch-normalized 应该放在非线性激活层的前面还是后面?
我看网上的中文资料基本都是说,将BN 层放在非线性激活层的前面,但是
在 Deep Learning for Computer Vision with Python 中,有以下讨论,
作者:论智https://www.zhihu.com/question/283715823/answer/438882036
在BN的原始论文中,BN是放在非线性激活层前面的(arXiv:1502.03167v3,第5页)
We add the BN transform immediately before the nonlinearity
(注意:before的黑体是我加的,为了突出重点)
但是,François Chollet爆料说BN论文的作者之一Christian把BN放在ReLU后面(你的问题里引用的文字也提到了这一段)。
I can guarantee that recent code written