摘要:
本文利用深度可分离卷积搭建网络。搭建的网络结构与Inception V3 类似,可以理解为将Inception中的卷积替换为深度可分离卷积。
深度可分离卷积包括两个部分:一、channel-wise spatial convolution(分组卷积,组数与输入通道数相等,通道之间在计算时是相互独立的) 二、1*1卷积。前者建立空间之间的关系,后者建立通道间的关系
除上述本文的核心内容之外,该文章有一个新的实验结论:在深度可分离卷积中,channel-wise spatial convolution和1*1卷积之间没有非线性激活函数的性能要好于二者之间存在激活函数的性能。去看了看本文的代码,深度可分离卷积两个模块之间不仅没有激活函数,也没有BN,只是两个卷积层直接进行了连接。作者对该现象进行了推测:可能channel-wise spatial convolution中提取到特征的深度对于非线性映射的效果来说是很重要的:对于深的特征(通道之间能交换信息的普通卷积)非线性映射是有帮助的,但是对于浅的特征(通道之间没有信息交流的channel-wise spatial convolution)非线性映射是有害的,这可能是因为非线性映射存在信息丢失的问题。