1.目标检测
目标检测,这就好比我们的行李箱过安检,安全员通过扫描的图片对行李箱内的物品进行检查,什么东西可以通过,什么又不能通过,而这一前提是安全员知道什么行李里面哪里有什么物品,它们又是否是安全和非安全物品,并在检查中识别出来。
目标检测是物品分类识别的进一步应用。物体分类的任务中,我们只需要对物品进行特征提取,然后预判出该无物品是什么类别的概率;目标检测在这个基础上必须知道该物体在图像中的位置并标记出来。
1.1怎么检测
这就用到了分而治之的思想,将一张图分解成很多张小的块并投入Net,对每一小的图像块进行分类识别,并记录物品的坐标。分解是通过滑窗技术来说实现的,而图像块的大小是一个超参数,需要人为设计。以下图做一个说明:
如果标识的框太小的话,如蓝色框,可能是能识别出车轮和上衣,框如果再加大一点,如绿色框,就能识别出骑自行车的人,但这时对于轮子的识别的准确性就会降低一些,因为框内的还包括其他的像素信息,这对轮子的识别有干扰。
2.目标框
目标框是对所要识别的物体进行的标记。标记的内容为类别,框的left top 和 ringt down 坐标值XY。
2.1目标框坐标的格式
格式1:类别,X左,Y左,X右,Y右
格式2:类别,X中心,Y中心,W框宽,H框高
一张图像的目标框数据一般会被写入一个 *.XML 的文件中
2.2目标框的作用
目标框的作用便是在训练网络时使网络能够优化使之接近目标参数,因为网络自己生成的框与目标框有差距,对于这种差距的度量工具常用的是 交并比——IOU
用下图来说明一下,绿色为目标框,浅蓝色为预测框,红色区域为两者的交集。交并比便是这两个框的交集占并集的比例,占比越高说明预测值越靠近目标值。
交并比怎么求?已知的前提是目标框的TOP坐标DOWN坐标和预测的TOP坐标DOWN坐标
交集的TOP坐标 = max(目标框的XTOP坐标,预测的XTOP坐标), max(目标框的YDOWN坐标,预测的YDOWN坐标)
交集的DOWN坐标 = min(目标框的XTOP坐标,预测的XTOP坐标), min(目标框的YDOWN坐标,预测的YDOWN坐标)
由此可知交集区域的面积。S(并集) = S(目标框)+S(预测框)-S(交集) ,交集为重叠区域
交并比 = S(交集) / S(并集)
资料:
1.Datawhale CV目标检测