41 物体检测和数据集
物体检测问题:分类+位置(边缘框)
边缘框的原点是在左上角,一个边缘框可以通过4个数字来定义。
目标检测数据集:每行表示一个物体,包括图片文件名、物体类别、边缘框,COCO是一个很大的数据集。
42 锚框 anchor
主流的目标检测算法多是基于锚框的,锚框使用流程如下:
- 提出多个称为锚框的区域
- 预测每个锚框中是否有所关注的物体(对应类别预测)
- 如果是,那么预测这个框到真实边缘框的偏移(对应位置的预测),把锚框的位置进行调整
IoU - 交并比
IoU的作用是计算两个框之间的相似度,0表示无重叠,1表示重合,这个Jacquard系数就是交并比。
赋予锚框标号:
每个锚框都是一个训练样本,要么把它标注为背景,要么关联上一个真实边缘框,一般会生成大量的锚框,所以会有正样本和负样本,并且大多的都可能是负样本。对于每个边缘框都找到一个锚框和它关联,关联的也是IoU最大的。
赋予锚框标号是在读图片后就会进行的一个过程,如果有9个锚框,每个锚框作为一个训练样本,就相当于图片有9个训练样本。
使用非极大值抑制(NMS)输出
每个锚框会预测一个边缘框,那么需要NMS来合并相似的预测。NMS选中非背景类的最大预测值(确定一个类),去掉所有其它和它的IoU大于阈值的预测(确定一个更精准的框),重复上述过程,使得所有框要么被留住,要么被去掉。