作者丨孙明珊
学校丨哈尔滨工业大学(深圳)
研究方向丨目标检测
研究动机
在购物超市中,商品陈列区中摆放了密集而繁多的商品,它们大多是相同或极其相似的,并且位置十分靠近。当前主流的检测网络在这种场景下充满挑战,效果并不是很理想。
本文的精确物体检测就是在这种场景基于主流检测方法,提出了以下几个方面的改进:
提出 Soft-IoU 层进行 IoU 的预测;
引入一个基于 EM 算法的高斯混合聚类方法来解决探测重叠的问题;
制作了公开数据集 SKU-110K,并在相关的零售场景数据集中进行训练和测试,包括 SKU-110K, CARPK 和 PUCPR+。
其与 RetinaNet 的探测效果对比图如下所示:
其中红框表示 RetinaNet 效果,蓝色表示本文的方法,(c) 和 (d) 是 (a) 和 (b) 的放大图。
可见在这种场景下探测的主要难点在于怎么确认矩形框的结束和下一个并列矩形框的开始。可见 RetinaNet 中大多数矩形框是重叠的,而本文的方法个个分明,在精确密集检测中很有优势。
研究方法
Soft-IoU层预测IoU
在非密集场景中,NMS 可以解决矩形框的重叠。然而,在密集检测中,多个重叠的边界框通常会映像多个紧密排列的目标,其中许多目标获得了高分数。在这种情况下,NMS 不能区分重叠物体之间的缝隙,或者抑制物体的不完整检测。