看论文解读时的理解,比较简短的就放在这里,精读的就单起一篇写
(1)Spatial Transformer network
空间形变网络,主要进一步加强网络的空间不变性,对形变的手写数字什么的好像有些效果,不过如果是3维的物体不知道效果怎么样,对三维物体单纯做仿射变换感觉有点牵强
方案:
在输入或者某feature map之后加入Localistion net(也是卷积、全链接什么的堆叠)学习变换参数向量,对feature map或输入做变换
(2)Non-local net
感受野:卷积后的像素点映射到原图上的大小,比如用1个33的卷积,那么卷积后的一个像素的感受野就是33
通过多个卷积核叠加(即更深的网络),也能增大一个像素的感受野,但会增加优化难度
Non-local就是非局部,也就是说全局感受野
有了全局感受野可以增强对场景的理解,在行为识别等需要对全局分析的场景比较有用
(3)Perforated CNNS
较早把注意力机制加入CNN的网络,虽然提速有限
注意力机制:就是只关注显著的目标,这样既能减少计算又能提高准确度
利用学习的方法选择梯度影响较大的点进行计算,相当于对原图或者feature map进行了一次下采样,采样出显著目标的像素
(4)SENet
2017 imageNet分类冠军,这篇想精读一下