一篇比较新的文章,看简介就吸引了我:其中提到的核心思想与唐师兄说的非常相似。描述method的关键词也如此。这篇文章应该是介绍刷榜工作的说明文,具体实现细节比较多,也有很多事用的别人的方法再加上调参,对于主要的网络结构没有很详细的介绍(文中说会在一篇独立的文章中再说明)。思想主要是目标检测中classification和regression的解耦,而我本次着重看一下这个做法。
后来发现:
这篇文章已经给出了。。。之前没有看到这篇。
motivation
和IOU-Net一样,问题在于:classification head 和regression head共享一样的parameters(这里可能是想说共享一样的features而不是说可训练的参数共享)。IOU-Net发现"feature which generates a good classification score
always predicts a coarse bounding box",于是采用另一个head预测IOU作为localization score整合进最终的classification score。作者称只是一种妥协,因为misalignment在每个空间点仍然存在,这种做法仅仅提升了紧凑bbox的confidence score而已(是一种后处理)。同时拿了Double-Head R-CNN举例说,经过相同proposal之后的ROI pooling的流入两个分支的feature导致了冲突依然存在。
既然作者强调方法与二者的优越性,在此先列出以作比较。
IOU-Net:
<