在 yolo 模型 inference 执行完成后,会产生很多的冗余结果,此时就需要调用 nms 对冗余结果进行去重
nms 函数在 darknet 框架中是 do_nms_sort 函数,位于 box.c 文件中,源码如下:
void do_nms_sort(detection *dets, int total, int classes, float thresh)
{
int i, j, k;
k = total -1;
for(i = 0; i <= k; ++i)
{
if(dets[i].objectness == 0)
{
detection swap = dets[i];
dets[i] = dets[k];
dets[k] = swap;
--k;
--i;
}
}
total = k + 1;
for(k = 0; k < classes; ++k)
{
for(i = 0; i < total; ++i)
{
dets[i].sort_class = k;
}
qsort(dets, total, sizeof(detection), nms_comparator);
for(i = 0; i < total; ++i)
{
if(dets[i].prob[k] == 0) continue;
box a = dets[i].bbox;
for(j = i + 1; j < total; ++j)
{
box b = dets[j].bbox;
if(box_iou(a, b) > thresh)
{
dets[j].prob[k] = 0;
}
}
}
}
}
现对 do_nms_sort 过程做详细分解:
for(i=0; i<=k; ++i)
{
if(dets[i].objectness == 0)
{
detection swap = dets[i];
dets[i] = dets[k];
dets[k] = swap;
--k;
--i;
}
}
上述循环过程的功能是将没有物体的检测结果由后向前交换,--k 表示最后一个位置向前移动一个位置,--i 后再++i 表示 i 的位置没有改变,之所以采用这一做法的原因是,交换后的检测结果可能同样 objectness 为 0,因此先保持在原位置不变,当检测结果的 objectness 不为 0 时,才移动到下一个物体。
经过上述过程,所有检测结果中不包含物体的全部被移动到了最后,包含物体的检测结果全部被移动到了数组前方。
for(k = 0; k < classes; ++k){
for(i = 0; i < total; ++i){
dets[i].sort_class = k;
}
qsort(dets, total, sizeof(detection), nms_comparator);
for(i = 0; i < total; ++i){
if(dets[i].prob[k] == 0) continue;
box a = dets[i].bbox;
for(j = i+1; j < total; ++j){
box b = dets[j].bbox;
if (box_iou(a, b) > thresh){
dets[j].prob[k] = 0;
}
}
}
}
然后按照类别对检测结果进行排序,排序的依据是某个检测结果属于某一类的概率,调用 nms_comparator 函数:
for(i = 0; i < total; ++i){
if(dets[i].prob[k] == 0) continue;
box a = dets[i].bbox;
for(j = i+1; j < total; ++j){
box b = dets[j].bbox;
if (box_iou(a, b) > thresh){
dets[j].prob[k] = 0;
}
}
}
最后一个二重循环的作用是,计算两个检测结果之间的iou,若二者之间的iou大于thresh,则将后者直接置0,认为上述两个框是同一个框。此处代码中给出的thresh是0.45。但上述做法实际上产生了一个问题,若两个物体重叠部分大于thresh,则会造成其中一个物体的丢失,进而造成准确率的下降。解决上述问题已有一些方法,但不是本文的重点,此处先暂且不表。
至此do_nms_sort的过程就分析完成了,总结起来就是三个过程:
- 1)去除没有物体的检测结果。
- 2)按照检测结果类别排序。
- 3)计算检测结果之间的iou,若大于thresh,则舍去