Centernet网络理解

最新推荐文章于 2023-07-09 21:59:11 发布

鹅鹅_鹅

最新推荐文章于 2023-07-09 21:59:11 发布

阅读量3.2k

点赞数 1

本文链接：https://blog.csdn.net/qq_41613251/article/details/116642877

版权

一.预备知识

1. 逆卷积(转置卷积)(Deconvolution)

如何理解深度学习中的deconvolution networks？

2. 残差网络(Resnet)

resnet50网络结构图_（二十七）通俗易懂理解——Resnet残差网络
我解释残差网络：
1.出现的问题：
理论上，网络深度越深，提取到的不同level的信息越多，这些信息综合起来组成的语义信息更丰富。但是，只是简单的增加深度，会导致梯度消失或梯度爆炸（什么是梯度消失，梯度爆炸）。正则化可以解决梯度消失与爆炸的问题，但是会出现另一个问题，网络发生退化，准确率比浅层的还要低。原因是网络很难训练，很难达到全局最优解。
2.如何解决：
既然浅层网络能达到好的效果，假如仅利用深层网络中包含的“浅层网络”，其余部分为恒等映射，即H(x) = x,就能在深层网络中实现浅层网络的效果。但是直接让一些层直接取拟合H(x) = x比较困难（困难的原因可能是这“一些层”的参数对于结果的变化响应不高），这也可能是深层网络难以训练的原因。残差网络可以解决上述响应不高的问题。即把网络设计为H(x) = F(x) + x，这样F(x) = H(x) - x（F(x)即为所谓的残差），这样网络只需学习令F(x) = 0，就能实现恒等映射H(x) = x。

3. 批标准化(Batch Normalization)

深入理解批标准化(Batch Normalization)

深入理解Batch Normalization批标准化
批标准化公式 (1)提高收敛速度，防止梯度消失；
(2)一定程度上防止过拟合。

4. DLASeg

CenterNet的骨干网络之DLASeg
该网络努力的方向是寻找一种网络连接方式将不同stage、block之间的信息进行融合，论文指出resnet的特征图融合方式仅限于块内部，并且融合方法仅限于简单的叠加，论文提出迭代式的方法(一种树状结构)将网络结构的特征信息融合起来，效果良好。

文章提的一个点:
语义融合：在通道方向上进行的聚合，能够提高模型推断“是什么”的能力(what)
空间融合：在分辨率和尺度方向的融合，能够提高模型推断“在哪里”的能力(where)

DLASeg在DLA的基础上使用可变形卷积和转置卷积（上采样）进行decode，提升空间分辨率。

5. DCNv2

DCN和DCNv2（可变性卷积）学习笔记
这个东西是用来解决常规的图像增强，仿射变换不能解决的多种形式的目标变换的几何变换问题。对于同一个目标，可能会有各种各样不能的动作姿势。

注意：这里所谓的可变形不是说卷积核真的变形，而是原来卷积的时候卷积核的数字只能去和该核平行投影过去的图像的像素值卷积，可变形的意思是假如是3x3的卷积核，则卷积核的参数可以和图像通道上非平行投影过去的像素值相卷。

大致流程是：特征图经过卷积得到其卷积核上平行投影到特征图上的区域中每个元素的偏移量(包括x、y轴上的偏移，该偏移量是学习出来的)，然后再返回来计算该区域元素加上偏移量之后的新位置。

6.Hourglass

卷积神经网络的网络结构——Hourglass

使用Hourglass网络来理解人体姿态

人体姿态估计论文笔记-Hourglass

这个网络上采样采用了最近邻插值方法。设计"沙漏"形状的原因在于网络要能够提取每个分辨率大小的信息，即对于不同的scale的特征图，我们要将所有特征图都能识别并提取出来。因为假如我们要找手或脸（小分辨率特征）在哪里，那当我们知道身体（大分辨率特征）在哪里之后，大致的相对位置我们（网络）也能“推导”出来。

7. 网络结构

Backbone：
Resnet-18 with up-convolutional layers : 28.1% coco and 142 FPS
DLA-34 : 37.4% COCOAP and 52 FPS
Hourglass-104 : 45.1% COCOAP and 1.4 FPS
（3x512x512 -> 2048x16x16 -> 64x128x128 ）

head（检测）
(heatmap):80x128x128（中心点位置）
(width、height)2x128x128（目标宽高）
(reg)2x128x128（中心点偏移）

人体姿态

【技术文档】centernet(姿态估计)
超越yolov3,Centernet 原理详解（object as points）

输出包括人体的检测框以及人体的17个关键点（对应下边的目标和关键点）
(目标heatmap)（hm）:１x128x128
(目标width、height)(wh)2x128x128
(目标reg)(reg)2x128x128
(关键点heatmap)(hm_hp):17x128x128
(关键点width、height)(hps):34x128x128
(关键点reg)(hp_offset):2x128x128
此处关于这六项的描述（可查上述两个博客）：首先，centernet做人体姿态估计是多个目标，目标heatmap、w、h、reg为目标检测框的中心点，中心点偏移以及ｗ、h；关键点的hm_hp为１７个不同类别的关键点的位置(包含关键点的类别信息及位置信息，但位置信息不精确)，hps为关键点图像中所有的关键点相对于检测框中心点的位置(１７ｘ２表示w h)（里边包含准确的位置信息，但不包含类别信息），然后通过距离判定该位置属于哪个类别，hp_offset表示heatmap中关键点的偏移。

损失函数（针对检测）
（1）中心点预测函数：
在这里插入图片描述对比focal loss损失函数：

对于focal loss来说，可以减小容易正负样本带来的损失，相对的增大难样本的损失。同时加入平衡因子α = 0.25，用来平衡正负样本本身的比例不均，文中alpha取0.25，即正样本要比负样本占比小，这是因为负例易分。

centernet的中心点损失函数在focal loss的基础上作了修改，首先y = 0改为otherwise，同时在负样本前边乘以了一个系数(1-y‘)^β，y’距离中心点越近，y‘的值应越接近于1（具体指通过高斯分布计算）。对于负样本而言，本来是y’越接近0,loss越小，乘以y’ ^ γ，是为了减小易样本的损失，增大难样本的损失，但是这里是otherwise，包含1附近以高斯分布减小的点，这些点的概率理应预测为0-1之间，若y越接近1，y‘预测的值越接近1时，乘以的系数（1-y） ^ β越小，即损失越小。

（2）位置偏差函数(L1 Loss)：
在这里插入图片描述
p代表目标框中心点，R代表下采样倍数4，
代表偏差值。

（3）w、h损失（L1 Loss）：
在这里插入图片描述

鹅鹅_鹅

关注

1
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
Centernet网络理解

一.预备知识1. 逆卷积(转置卷积)(Deconvolution)如何理解深度学习中的deconvolution networks？2. 残差网络(Resnet)resnet50网络结构图_（二十七）通俗易懂理解——Resnet残差网络我解释残差网络：1.出现的问题：理论上，网络深度越深，提取到的不同level的信息越多，这些信息综合起来组成的语义信息更丰富。但是，只是简单的增加深度，会导致梯度消失或梯度爆炸（什么是梯度消失，梯度爆炸）。正则化可以解决梯度消失与爆炸的问题，但是会出现另一个问题
复制链接

扫一扫