关于BN位置的一点点个人愚见
首先要说明的是我认为BN一定是要放在激活函数前头的。为什么呢?理由很简单,如果BN放到激活函数后,那么我们知道激活函数实际上给feature map带来一些非线性,典型激活函数如RELU=max(0,x)以及sigmoid函数的输出都是正数,那么经过这些激活函数后的feature map都是正数。那么假设我们在这些激活函数后在加上BN,那么我们知道BN的目的是将feature map的分布拉到均值为零,方差为1的分布上。如此一来,BN接在这两种激活函数后是没有办法完成任务的。