物体监测:Sliding Window
依次滑动:
每次滑动一个像素点,每个像素都会对应一个框。每次滑动后,都把框框住的内容当作一个图像送入目标检测网络中(如VGG网络,或者ResNet网络)进行检测。检测结果对应的位置,就是框的位置,每次滑动后,位置就确定了。
这个固定窗口滑动的方式,会导致截取到的窗口内容可能只是图片中大物体的一部分信息,导致后续的分类准确度较低。 因此可以使用多个尺度的窗口进行滑动截取
多尺度滑动:
就是使用小的框,把整张图滑动一遍之后,再使用大一点的框,再进行滑动一遍。然后再选择更大的框,再进行滑动。最后一个尺度,有可能和整个图的大小差不多。这样才能检测出大的、小的目标
滑动窗口会产生大量的不同大小尺度的图片,造成网络整个检测过程过长。并且,不同的场景,物体的大小差异比较大,很难设计比较合适的滑动窗口大小,去包含各个场景的数据,导致检测的精度比较低。