1.锚框
目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。
下采样(subsampled)(或称为缩小图像 或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图(最直观的理解,所以深度学习领域对被卷积核之后的特征图叫下采样,从尺寸角度来看,大部分确实会缩小尺寸)。
上采样(upsampling) (或称为放大图像(分割领域,GAN领域直观理解的尺寸也是扩大了) 或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而,确实有一些缩放方法能够增加图像的信息,从而使得缩放后的图像质量超过原图质量的。
锚框以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)。
2.锚框类别信息的确定
对于预先铺设的锚框,先要给出这些框的类别信息,才能让模型学着去预测每个锚框是否对应着一个目标物体。但是这些锚框中有很多是和图片中我们要检测的目标完全没有交集或者有很小的交集,如何划分他们是目标还是背景呢?我们的做法是,设定一个IoU阈值,例如IoU=0.5,与图片中目标的IoU<0.5的锚框,这些框我们将其划分为背景,IoU>=0.5的被归到目标锚框,通过这样划分,得到供模型学习的ground truth信息。