STN层能对扭曲输入做放射变换,据说能很大程度上提高检测精度,做了一些STN和RPN结合的调研。
Region Based CNN for Foreign Object Debris Detection on Airfield Pavement
应用性论文,创新不大主要应用价值高。算法上没什么创新理论部分就得把各个模块的内容在复述一遍。
[外链图片转存失败(img-uKieCbSQ-1563938551249)(https://github.com/chunhui204/chunhui204.github.io/blob/master/images/RS1.PNG)]
RPN没有使用表示性更强的网络,由于是检测跑道上的外来障碍所以使用一些先验知识来过滤候选框(frcnn中NMS是对检测任务通用的过滤手段,对具体任务希望看到更适合的过滤,降低数量的同时提高质量,如在文本检测任务中)。 STN层后连接一个VGG16分类器。
An Attention Model Based on Spatial Transformers for Scene Recognition
这篇文章讲的是使用STN的视觉注意力功能在场景识别的应用,与RPN无关。
[外链图片转存失败(img-B2NrAry5-1563938569686)(https://github.com/chunhui204/chunhui204.github.io/blob/master/images/RS2.PNG)]
网络有Spatial Transform模块和分类模块构成。空间变换模块的参数定位网络只学习平移和尺度变换的参数。
[外链图片转存失败(img-sYHQq4aP-1563938578973)(https://github.com/chunhui204/chunhui204.github.io/blob/master/images/RS3.PNG)]
x i s x^s_i xis表示输入图片中的坐标, x i t x^t_i xit表示输出的坐标。
其中 S x S_x Sx表示输入图片的尺寸比例,在0,1之间。定位网络首先是共享的CNN输出时256维的特征图,接着128维的全连接层,最后是N个并行的4维全连接层预测变换系数,N是空间变换模块的数目,实验中N=2。多个空间变换模块会生成多个相似的感兴趣区域,相当于是模型集成的作用。
将空间变换模块生成的感兴趣区域输入到N个卷积网络提取局部特征,并与提取的全局特征作加权求和。送入softmax对场景进行分类。