CenterNet :Objects as Points阅读笔记(未完待续)

一、概述

这个文章作者在构建模型时将目标作为一个点——即目标BBox的中心点。检测器采用关键点估计来找到中心点,并回归到其他目标属性,例如尺寸,3D位置,方向,甚至姿态。

论文创新点:

第一,我们分配的锚点仅仅是放在位置上,没有尺寸框。没有手动设置的阈值做前后景分类。(像Faster RCNN会将与GT IOU >0.7的作为前景,<0.3的作为背景,其他不管);

第二,每个目标仅仅有一个正的锚点,因此不会用到NMS,我们提取关键点特征图上局部峰值点(local peaks);

第三,CenterNet 相比较传统目标检测而言(缩放16倍尺度),使用更大分辨率的输出特征图(缩放了4倍),因此无需用到多重特征图锚点;
对物体的中心点位置进行预测,同时预测物体的大小。

二、网络结构

​输入图像:其宽W,高H:
在这里插入图片描述
我们目标是生成关键点热力图:
在这里插入图片描述
其中R 是输出stride(即尺寸缩放比例),C是关键点类型数(即输出特征图通道数);关键点类型有: C = 17 的人关节点,用于人姿态估计; C = 80 的目标类别,用于目标检测。我们默认采用下采用数为R=4 。
对于 Ground Truth(即GT)的关键点 c ,其位置为p,计算得到低分辨率(经过下采样)上对应的关键点为:
在这里插入图片描述
作者将 GT 关键点 通过高斯核:
在这里插入图片描述
其中
在这里插入图片描述
是目标尺度-自适应 的标准方差。

可得到feature map经过变换后的结果:
在这里插入图片描述
如果对于同个类 c (同个关键点或是目标类别)有两个高斯函数发生重叠,我们选择元素级最大的。训练目标函数如下,像素级逻辑回归的focal loss:
在这里插入图片描述
其中 alpha 和beta是focal loss的超参数,实验中两个数分别设置为2和4, N是图像 I 中的关键点个数,除以N主要为了将所有focal loss归一化。

由于图像下采样时,GT的关键点会因数据是离散的而产生偏差,我们对每个中心点附加预测了个局部偏移 :
在这里插入图片描述
所有类别 c 共享同个偏移预测,这个偏移同个 L1 loss来训练:
在这里插入图片描述
只会在关键点位置 p_hat做监督操作,其他位置无视。下面章节介绍如何将关键点估计用于目标检测

Objects as points目标检测

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
参考:https://blog.csdn.net/c20081052/article/details/89358658

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值