CNN中的池化后的平移不变性理解以及max_pooling和mean_pooling对比

参考1:https://www.zhihu.com/question/34898241
参考2:http://ufldl.stanford.edu/wiki/index.php/池化

1、池化的不变形

  如果人们选择图像中的连续范围作为池化区域,并且只是池化相同(重复)的隐藏单元产生的特征(这个地方不是很理解,什么叫只是池化相同的隐藏单元产生的特征),那么,这些池化单元就具有平移不变性 (translation invariant)。这就意味着即使图像经历了一个小的平移之后,依然会产生相同的 (池化的) 特征。
  在很多任务中 (例如物体检测、声音识别),我们都更希望得到具有平移不变性的特征,因为即使图像经过了平移,样例(图像)的标记仍然保持不变。例如,如果你处理一个MNIST数据集的数字,把它向左侧或右侧平移,那么不论最终的位置在哪里,你都会期望你的分类器仍然能够精确地将其分类为相同的数字。

2、max_pooling与mean_pooling

  无论是max还是mean都是在提取区域特征,均相当于一种抽象,抽象就是过滤掉了不必要的信息(当然也会损失信息细节),所以在抽象层次上可以进行更好的识别。至于max与mean效果是否一样,还是要看需要识别的图像细节特征情况,这个不一定的,不过据说差异不会超过2%。

不过仔细点说的话,评估特征提取的误差主要来自两个方面:
(1)邻域大小受限造成的估计值方差增大,mean能减小这种误差。
(2)卷积层参数误差造成估计均值的偏移,max能减小这种误差。

也就是说,mean对背景保留更好,max对纹理提取更好如果是识别字体什么的,应该考虑max.

没有更多推荐了,返回首页