编者按
在计算机视觉、目标检测领域,Anchor-Free旨在不产生anchor,也不利用预测框和真实框的IOU进行优化,而是使用一种segmentation-like的方式直接预测真实框,这当中有什么困难?如何解决呢?
文章作者:TeddyZhang
责任编辑:TeddyZhang
文章由『运筹OR帷幄』原创发布,如需转载请在公众号后台获取转载须知
![26b660ac63ef9ca057fe1facc3a52e79.png](https://i-blog.csdnimg.cn/blog_migrate/c1a27d78753349110fd8ac5ba33ba232.jpeg)
今天介绍一篇已开源的Anchor-Free的目标检测算法,读完这篇文章真的启发很大,并且解决了自己之前很多疑惑,在进入正题之前,作者分析了Anchor-Based的缺点:
1、其检测性能对于anchor的大小,数量,长宽比都非常敏感,通过改变这些超参数Retinanet在COCO benchmark上面提升了4%的AP。
2、这些固定的anchor极大地损害了检测器的普适性,导致对于不同任务,其anchor都必须重新设置大小和长宽比。
3、为了去匹配真实框,需要生成大量的anchor,(FPN需要180K)但是大部分的anchor在训练时标记为negative,所以就造成了样本间的不平衡(没有充分利用fore-ground)
4、在训练中,需要计算所有anchor与真实框的IOU,这样就会消耗大量内存和时间
而且FCNs的网络在密集检测例如语义分割任务都有很好的效果,那我们能不能用语义分割的思想逐像素点的来解决检测问题呢?参考semantic segmentation~
论文地址:
https://arxiv.org/abs/1904.01355
代码地址:
https://github.com/tianzhi0549/FCOS
其实这个想法笔者也有过,但是这种方式会存在一个问题,就是真实标签的区域交叠问题,如果那个分割区域交叠了,那么交叠区域到底算是那个问题的呢?
![52aa39b8440450ab5755412c5fda0dcb.png](https://i-blog.csdnimg.cn/blog_migrate/cb882ae5706fa5d0067c5d64f7e21b1f.jpeg)
比如上图的人和网球拍,还有一