CenterNet 数据加载解析

最新推荐文章于 2022-07-12 23:57:53 发布

*pprp*

最新推荐文章于 2022-07-12 23:57:53 发布

阅读量883

点赞数 2

分类专栏：深度学习 CenterNet合集文章标签：深度学习 pytorch 神经网络

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.csdn.net/DD_PP_JJ/article/details/107691811

版权

本文主要解读CenterNet如何加载数据，并将标注信息转化为CenterNet规定的高斯分布的形式。

1. YOLOv3和CenterNet流程对比

CenterNet和Anchor-Based的方法不同，以YOLOv3为例，大致梳理一下模型的框架和数据处理流程。

YOLOv3是一个经典的单阶段的目标检测算法，图片进入网络的流程如下：

对图片进行resize，长和宽都要是32的倍数。
图片经过网络的特征提取后，空间分辨率变为原来的1/32。
得到的Tensor去代表图片不同尺度下的目标框，其中目标框的表示为(x,y,w,h,c)，分别代表左上角坐标，宽和高，含有某物体的置信度。
训练完成后，测试的时候需要使用非极大抑制算法得到最终的目标框。

CenterNet是一个经典的Anchor-Free目标检测方法，图片进入网络流程如下：

对图片进行resize，长和宽一般相等，并且至少为4的倍数。
图片经过网络的特征提取后，得到的特征图的空间分辨率依然比较大，是原来的1/4。这是因为CenterNet采用的是类似人体姿态估计中用到的骨干网络，基于heatmap提取关键点的方法需要最终的空间分辨率比较大。
训练的过程中，CenterNet得到的是一个heatmap，所以标签加载的时候，需要转为类似的heatmap热图。
测试的过程中，由于只需要从热图中提取目标，这样就不需要使用NMS，降低了计算量。

2. CenterNet部分详解

设输入图片为 $I\in R^{W\times H\times 3}$ , W代表图片的宽，H代表高。CenterNet的输出是一个关键点热图heatmap。
$\hat{Y}\in[0,1]^{\frac{W}{R}\times\frac{H}{R}\times C}$
其中R代表输出的stride大小，C代表关键点的类型的个数。

举个例子，在COCO数据集目标检测中，R设置为4，C的值为80，代表80个类别。

如果 $\hat{Y}_{x,y,c}=1$ 代表检测到一个物体，表示对类别c来说，(x,y)这个位置检测到了c类的目标。

既然输出是热图，标签构建的ground truth也必须是热图的形式。标注的内容一般包含（x1,y1,x2,y2,c）,目标框左上角坐标、右下角坐标和类别c，按照以下流程转为ground truth：

得到原图中对应的中心坐标 $p=(\frac{x1+x2}{2}, \frac{y1+y2}{2})$
得到下采样后的feature map中对应的中心坐标 $\tilde{p}=\lfloor \frac{p}{R}\rfloor$

最低0.47元/天解锁文章

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

*pprp* 如果有帮助可以打赏一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。