Normalization
不同Normalization之间的具体区别和优缺点我也不是很清楚,这里只是展示他们的具体运行机制
1. Batch Normalization
加速收敛,归一化为标准正态分布,能够解决梯度消失的问题
图像分类任务一般用Batch Normalization,不用Instance Normalization?
Batch Normalization有一个很大的缺点,需要比较大的Batch Size,比如32,但是有些任务很大的Batch显存吃不下,对于较小的Batch表现又较差,所以需要下面的归一化方法
Batch Normalization示例
2. Instance Normalization
作者提到输出图像不依赖内容之间的对比,所以可以用实例归一化
3. Layer Normalization
4. Group Normalization
Group Normalization与Layer Normalization唯一不同的在于,Group Normalization不是计算特征图的所有通道,而是取部分通道进行计算,也适用于Batch较小的情况,paper中提到计算的通道数大约为32