翻译及理解自论文Rethinking the Inception Architecture for Computer Vision。以下原则是经验原则,即不一定适用于所有情况,需要根据具体场景再自行决定。
输出特征图的大小逐渐减小
避免表达瓶颈,特别是在网络前面的层中。前馈网络可以用从输入层到分类器或回归器的无环图来表示。这为信息流动定义了一个明确的方向。我们应该避免极端压缩的瓶颈层。一般来说,在达到用于手头任务的最终表征之前,表征的大小应该从输入到输出逐渐减小(即特征图的大小逐渐减小,而不是很剧烈地减小,比如由128x128到64x64,而不是从128x128直接到16x16)。从理论上讲,信息的内容不能仅仅通过表征的维数(即特征图的大小或者说尺寸)来评价,因为它抛弃了相关结构等重要因素;维数仅仅提供了信息内容的粗略估计。
在网络较深层应该利用更多的feature map
高维表示更容易在网络中进行局部处理。在卷积网络中增加激活的数量允许更多的分离特征(Increasing the activations per tile in a convolutional network allows for more disentangled features )。由此产生的网络将训练得更快。
Bottleneck layer的设计
空间聚集可以在低维嵌入上进行,而不会带来太多或任何模型表征能力的损失。例如,在进行更广泛的(例如3×3)卷积之前&#