一:RPN
全称“Region Proposal Network”,即“区域生成网络”,通俗讲是“筛选出可能会有目标的框”。其本质是基于滑窗的无类别object检测器,输入是任意尺度的图像,输出是一系列矩形候选区域。
快速理解RPN
二:ROI
全称Region of Interest,也即感兴趣区域,就是从原始图像提取的一小部分有用的区域。在目标检测时,就是通过RPN来生成的所有object可能存在的bbox。
三:ROI Pooling
网络生成的ROI有很多,且大小不一。但是在目标检测任务中,后面的网络还有全连接网络来进行分类和回归。全连接网络的输入必须是统一的,所以就使用ROI Pooling来将不同大小的ROI调整到统一的大小。
这种方法的速度很快,但是在pooling的过程中,会进行一个取整操作,进而使得前后出现像素偏移。这在目标检测任务中问题不大,但是,在分割任务中,就会出现问题,因为分割任务要关注的是像素级别。于是Mask R-CNN就提出了ROI Align。
参考:ROI Pooling原理及实现
四:ROI Align
Mask R-CNN提出的ROI Pooling的改进。ROI Pooling之所以会出现无法保证对应的情况,是因为其进行了取整操作:当bbox的w和h无法被等分时,就会分成相临的两个整数。这样的取整使得被忽略的部分比例还原到原图像后出现较大的像素偏移。ROI Align则不再使用取整操作,而是遇到需要取整时,使用双线性插值的方法来计算得到虚拟像素的值。结果表明,这种做法对掩膜预测更加有效。
五:IoU
预测的bbox和标注的bbox之间的交并比,可以作为评价目标检测的指标:
I
o
U
=
P
∩
Q
P
∪
Q
IoU = \frac{P∩Q}{P∪Q}
IoU=P∪QP∩Q
其中P是预测的bbox,Q是实际的bbox。
还有很多改进的IoU,可参考:目标检测常用损失函数-类别损失+位置损失
六:mAP
全称**“Mean Average Precision”**,字意上看,就是平均的AP。而AP的计算就是指在所有Recall的可能取值情况下,得到的所有的Precision的平均值。
七:FPN
全称Feature Pyramid Networks。即特征金字塔网络。
在目标检测时,如果仅通过卷积操作,使用最后输出的特征,很可能在下采样过程中把本来就很小的目标给卷没了。于是就可以把不同尺度的特征都用上,但是又不是简单的直接使用不同尺度的特征图。
更详细介绍:【论文笔记】FPN —— 特征金字塔
八:bbox
bounding box,也就是目标检测里的一个框。一般可用四个数表示,[x, y, w, h]
九:ground truth
正确的标注,不仅局限于视觉领域。