论文解读-CenterNet：Keypoint Triplets for Object Detection

最新推荐文章于 2021-10-21 10:12:48 发布

diligent_321

最新推荐文章于 2021-10-21 10:12:48 发布

阅读量3.4k

点赞数 7

分类专栏：深度学习算法文章标签：目标检测

本文链接：https://blog.csdn.net/diligent_321/article/details/89736598

版权

本文解读了CenterNet论文，该论文提出关键点三元组（keypoint triplets）来改进目标检测，通过增加中心点来增强cornernet的性能，解决了cornernet的误识别问题。论文中介绍了center pooling和cascade corner pooling等方法，以及优化目标的损失函数，实验证明了这种方法的有效性。

摘要由CSDN通过智能技术生成

文章目录

论文信息

文章链接：https://arxiv.org/abs/1904.08189

作者：Kaiwen Duan

单位：中科院、华为诺亚方舟实验室（实习单位）

代码地址：https://github.com/Duankaiwen/CenterNet

这篇文章，笔者断断续续看了一周，尽管论文的思想说起来简单，但是里面的一些细节还是挺晦涩难懂的，比如为什么center pooling能够work，笔者将自己的理解记录下来，方便以后查看，也希望能对大家有所帮助。

1 背景

论文所提的centernet，是基于 cornernet网络结构，所以在具体介绍centernet 之前，有必要先了解 cornernet相关的基础知识。

cornernet是首个基于关键点的目标检测算法，它的灵感来源于人体姿态关键点检测，它的优点是：避免了设计anchor boxes的复杂操作。整个的网络结构如下图，
在这里插入图片描述
从图中可以看出，输出有三个分支，heatmaps+embeddings+offsets，heatmaps 用于生成所有类别目标的位置图，每一个feature map表示一类目标。embeddings表征了每一个位置的特征向量，用于衡量两个目标点的匹配程度（a pair)。offsets表征了位置点的偏移量，用于对目标的corner位置进行精修，来弥补输出feature map和输入图像misalign带来的影响。

2 动机

尽管cornernet在创新性和效果上确实很棒，但是也存在可以进一步改进的地方，

cornernet使用了corner pooling操作定位关键点，而这个操作是基于bounding box的边界查找最值点，不能感知bounding box内部的语义信息，所以容易有误识别，样例如下图，
在这里插入图片描述
为了更具有说服力，作者补充了一组实验，具体研究了不同iou阈值对应的FD，实验结果如下，

其中， $FD_{i}=1-AP_{i}$ ， $AP_{i}$ 表示iou阈值为 $i /$