极简笔记 CornerNet: Detecting Objects as Paired Keypoints

最新推荐文章于 2025-03-26 21:57:35 发布

Hibercraft

最新推荐文章于 2025-03-26 21:57:35 发布

阅读量5.4k

点赞数 1

分类专栏：极简笔记

本文链接：https://blog.csdn.net/Hibercraft/article/details/81637451

版权

CornerNet是一种新颖的物体检测方法，通过预测物体边框的两个关键点（左上和右下）替代传统anchor-based框架。论文采用hourglass网络作为backbone，分两分支预测关键点，同时利用corner pooling、heatmap、embedding map和offset进行精细化定位。损失函数包括检测误差、点匹配损失和偏移量损失，旨在提高检测精度和匹配准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

极简笔记 CornerNet: Detecting Objects as Paired Keypoints

论文地址：https://arxiv.org/abs/1808.01244

文章核心提出利用关键点定位方式定位物体bbox的左上角点和右下角点，从而完全摆脱利用anchor提取proposal的two stage检测框架。
这里写图片描述
文章使用网络结构如图所示，首先使用hourglass作为backbone，之后分成两个分支，一个预测左上角点（C个类别有C个channel），一个预测右下角点。每个分支里面先做corner pooling，之后再分三个分支分别预测heatmap，embedding map和一个offset。

为了方便计算bbox角点，文章提出corner pooling计算。以左上角点分支计算为例，corner pooling分为2个channel，第一个channel每个像素取该行右侧像素的最大值，第二个channel每个像素取该列下方像素的最大值。右下角点分支的corner pooling也类似，只是改成了左侧和上方。之后将两个channel逐像素求和，要求得到的最大值位置为角点位置。（个人想法，corner pooling的前置条件是能够学得instance上下左右四个极点，之后才能够利用corner pooling求得角点）
这里写图片描述
在计算heatmap的时候，文章希望当预测坐标在gt坐标的一个与instance尺寸相关的半径范围内时能够减少penalty，这个半径选取的条件是在这个范围内与gt的IoU大于0.7，然后gt的高斯分布的方差取半径1/3，利用改进的focal loss计算检测误差 $L_{det}$ 。