总体思路非常简单,就是用一个小输入尺寸的分类器网络在输入图像上滑动。可以看作一种非常naive的检测算法,分类网络依旧对应Detection中的分类网络,没有修正bounding box位置的回归网络,没有RPL网络,没有针对多尺度的多尺度bounding box,不对输入图像做任何的预特征提取,直接在原图上进行了一个exausted search,然后针对每个类做非极大值抑制,找出每一个类的最大响应位置,然后加一个阈值消除一些假的响应即可。
提高速度的trick是将网络的输出全连接层改成卷积层,在输入图像大于预设输入尺寸时,每一个类的输出不再是一个标量,而是一个feature map,或者叫heatmap,因为只是找最大值因此softmax没用了也没法用所以丢掉。