论文地址:Xception
github:Xception
介绍这篇论文呢,还是先回顾一下之前的Inception网络
VGG等传统的网络通过堆叠简单的33卷积实现特征提取,还有用11卷积 5*5的,但是用哪种大小的卷积是最好的并不清楚,Inception结构就把这些不同大小的卷积核都放进去,让网络自己去训练决定,也就是将一个输入同时输给这几种提取特征方式,然后做concat,这样还有一个直观的好处,可以学到不同尺度的信息,同时相对于VGG等网络来说用更少的参数和更少的计算开销可以学习到更丰富的特征表示。
通常,在一组特征图上进行卷积需要三维的卷积核,也即卷积核需要同时学习空间上的相关性和通道间的相关性。将这两种相关性显式地分离开来,是Inception模块的思想之一:Inception模块首先使用11的卷积核将特征图的各个通道映射到一个新的空间,在这一过程中学习通道间的相关性;再通过常规的33或5*5的卷积核进行卷积,以同时学习空间上的相关性和通道间的相关性。
但此时,通道间的相关性和空间相关性仍旧没有完全分离,也即33或55的卷积核仍然是多通道输入的,那么是否可以假设它们可以被完全分离?显然,当所有33或55的卷积都作用在只有一个通道