CenterNet 论文笔记

前言

本文提出了一种目标表示的新方法——通过bbox的中心点来表示目标,如下图所示。然后通过中心点处的图像特征回归到目标的其它属性,比如目标大小、维度、方向和姿态。这样就把目标检测问题变为关键点估计问题。
在这里插入图片描述
将输入图像送入一个全卷积网络后,会生成一个heatmap,在heatmap上出现的peak就是目标的中心点,每个peak的图像特征预测出目标的bbox的高和宽。模型训练采用标准的监督学习,inference是单个前向传播网络,没有任何NMS操作

使用中心点表示目标实现目标检测,只经过很小的改动就能扩展到其他任务上。对于3D bbox检测来说,还要回归目标的绝对深度、3D bbox的维度和目标的方向;对于人姿态估计来说,将关节点(2D joint)位置作为中心点的offset,直接在中心点位置回归出这些offset。

从下图可以看出,在实时检测中,CenterNet的速度和精度都更好一点。
在这里插入图片描述


准备工作

设输入图像为 I ∈ R W × H × 3 I∈R^{W×H×3} IRW×H×3,其中 W W W H H H分别是宽和高。接下来的目标是要产生关键点的热点图(keypoint heatmap), Y ^ ∈ [ 0 , 1 ] W R × H R × C \hat{Y}\in[0,1]^{\frac{W}{R}×\frac{H}{R}×C} Y^[0,1]RW×RH×C,其中 R R R是输出对应原图步长,即对原图进行 R R R倍的下采样,这里 R = 4 R=4 R=4 C C C是关键点的类型数量。 Y ^ x , y , c = 1 \hat{Y}_{x,y,c}=1 Y^x,y,c=1表示可以检测到目标的关键点,也就是说对于类别 c c c,在点 ( x , y ) (x,y) (x,y)处检测到的目标属于类别 c c c;而 Y ^ x , y , c = 0 \hat{Y}_{x,y,c}=0 Y^x,y,c=0表示背景,即当前这个点 ( x , y ) (x,y) (x,y)处不存在属于类别 c c c的目标。

作者根据CornerNet的方法来训练关键点预测网络。对于属于类 c c c的每个真实关键点(gt keypoint) p ∈ R 2 p\in R^{2} pR2,计算得到低分辨率(经过下采样)上对应的关键点为 p ~ = ⌊ p R ⌋ \tilde{p}=\lfloor\frac{p}{R}\rfloor p~=R

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值