CornerNet详解

一、网络结构

先放一个网络的结构图以便理解:
在这里插入图片描述
再放一个github上的一个比较易懂的tensorflow的实现:
https://github.com/makalo/CornerNet

首先1个7×7的卷积层将输入图像尺寸缩小为原来的1/4(论文中输入图像大小是511×511,缩小后得到128×128大小的输出)。
然后经过特征提取网络(backbone network)提取特征,该网络采用hourglass network,该网络通过串联多个hourglass module组成(Figure4中的hourglass network由2个hourglass module组成),每个hourglass module都是先通过一系列的降采样操作缩小输入的大小,然后通过上采样恢复到输入图像大小,因此该部分的输出特征图大小还是128×128,整个hourglass network的深度是104层。

hourglass module后会有两个输出分支模块,分别表示左上角点预测分支和右下角点预测分支,每个分支模块包含一个corner pooling层和3个输出分别为:heatmaps、embeddings和offsets。这三个输出的含义如下,其中:
1、heatmaps是输出预测角点信息,可以用维度为CHW的特征图表示,其中C表示目标的类别(注意:没有背景类),这个特征图的每个通道都是一个mask,mask的每个值(范围为0到1,论文中写的该mask是binary mask,也就是0或1,个人感觉是笔误,预测值应该是0到1,否则后面公式1计算损失函数时就没有意思了)表示该点是角点的分数;
2、embeddings用来对预测的corner点做group,也就是找到属于同一个目标的左上角角点和右下角角点;
3、offsets用来对预测框做微调,这是因为从输入图像中的点映射到特征图时有量化误差,offsets就是用来输出这些误差信息。

整个算法的整体结构如下:
在这里插入图片描述
放一个网上的tensorflow的代码版本的具体实现:

class NetWork():
    def __init__(self,pull_weight=0.1, push_weight=0.1, offset_weight=1):
        self.n_deep  = 5
        self.n_dims  = [256, 256, 384, 384, 384, 512]
        self.n_res   = [2, 2, 2, 2, 2, 4]
        self.out_dim = 80
        self.model=Model()
        self.pull_weight = pull_weight
        self.push_weight = push_weight
        self.offset_weight = offset_weight
        self.focal_loss  = focal_loss
        self.tag_loss     = tag_loss
        self.offset_loss   = offset_loss
    def corner_net(self,img,gt_tag_tl=None,gt_tag_br=None,is_training=True,scope='CornerNet'):
        with tf.variable_scope(scope):

            outs=[]
            test_outs=[]
            start_layer=self.model.start_conv(img,is_training=is_training)#[b,128,128,256]

            with tf.variable_scope('inter_supervise'):

                hourglass_1=self.model.hourglass(start_layer,self.n_deep,self.n_res,self.n_dims,is_training=is_training)#[b,128,128,256]
                hinge_is=self.model.hinge(hourglass_1,256,256,is_training=is_training)
                top_left_is,bottom_right_is=self.model.corner_pooling(hinge_is,256,256,is_training=is_training)
                #top_left
                heat_tl_is=self.model.heat(top_left_is,256,self.out_dim,scope='heat_tl')
                tag_tl_is=self.model.tag(top_left_is,256,1,scope='tag_tl')
                if not gt_tag_tl is None:
                    tag_tl_is=map_to_vector(tag_tl_is,gt_tag_tl)
                offset_tl_is=self.model.offset(top_left_is,256,2,scope='offset_tl')
                if not gt_tag_tl is None:
                    offset_tl_is=map_to_vector(offset_tl_is,gt_tag_tl)
                #bottom_right
                heat_br_is=self.model.heat(bottom_right_is,256,self.out_dim,scope='heat_br')
                tag_br_is=self.model.tag(bottom_right_is,256,1,scope='tag_br')
                if not gt_tag_br is None:
                    tag_br_is=map_to_vector(tag_br_is,gt_tag_br)
                offset_br_is=self.model.offset(bottom_right_is,256,2,scope='offset_br')
                if not gt_tag_br is None:
                    offset_br_is=map_to_vector(offset_br_is,gt_tag_br)


            with tf.variable_scope('master_branch'):
                inter=self.model.inter(start_layer,hinge_is,256,is_training=is_training)
                hourglass_2=self.model.hourglass(inter,self.n_deep,self.n_res,self.n_dims,is_training=is_training)#[b,128,128,256]
                hinge=self.model.hinge(hourglass_2,256,256,is_training=is_training)
                top_left,bottom_right=self.model.corner_pooling(hinge,256,256,is_training=is_training)
                #top_left
                heat_tl=self.model.heat(top_left,256,self.out_dim,scope='heat_tl')
                tag_tl_test=self.model.tag(top_left,256,1,scope='tag_tl')
                if not gt_tag_tl is None:
                    tag_tl=map_to_vector(tag_tl_test,gt_tag_tl)
                offset_tl_test=self.model.offset(top_left,256,2,scope='offset_tl')
                if not gt_tag_tl is None:
                    offset_tl=map_to_vector(offset_tl_test,gt_tag_tl)
                #bottom_right
                heat_br=self.model.heat(bottom_right,256,self.out_dim,scope='heat_br')
                tag_br_test=self.model.tag(bottom_right,256,1,scope='tag_br')
                if not gt_tag_br is None:
                    tag_br=map_to_vector(tag_br_test,gt_tag_br)
                offset_br_test=self.model.offset(bottom_right,256,2,scope='offset_br')
                if not gt_tag_br is None:
                    offset_br=map_to_vector(offset_br_test,gt_tag_br)

            outs=[heat_tl_is,heat_br_is,tag_tl_is,tag_br_is,offset_tl_is,offset_br_is,heat_tl,heat_br,tag_tl,tag_br,offset_tl,offset_br]
            test_outs=[heat_tl,heat_br,tag_tl_test,tag_br_test,offset_tl_test,offset_br_test]
            return outs,test_outs

二、Heatmaps

第一个输出是headmaps,也就是预测角点的位置。loss函数如下:
在这里插入图片描述
公式1是针对角点预测(headmaps)的损失函数,整体上是改良版的focal loss。几个参数的含义:pcij表示预测的heatmaps在第c个通道(类别c)的(i,j)位置的值,ycij表示对应位置的ground truth,N表示目标的数量。ycij=1时候的损失函数容易理解,就是focal loss,α参数用来控制难易分类样本的损失权重;ycij等于其他值时表示(i,j)点不是类别c的目标角点,照理说此时ycij应该是0(大部分算法都是这样处理的),但是这里ycij不是0,而是用基于ground truth角点的高斯分布计算得到,因此距离ground truth比较近的(i,j)点的ycij值接近1,这部分通过β参数控制权重,这是和focal loss的差别。为什么对不同的负样本点用不同权重的损失函数呢?这是因为靠近ground truth的误检角点组成的预测框仍会和ground truth有较大的重叠面积,如Figure5所示。
在这里插入图片描述
Figure5是关于对不同负样本点的损失函数采取不同权重值的原因。红色实线框是ground truth;橘色圆圈是根据ground truth的左上角角点、右下角角点和设定的半径值画出来的,半径是根据圆圈内的角点组成的框和ground truth的IOU值大于0.7而设定的,圆圈内的点的数值是以圆心往外呈二维的高斯分布;白色虚线是一个预测框,可以看出这个预测框的两个角点和ground truth并不重合,但是该预测框基本框住了目标,因此是有用的预测框,所以要有一定权重的损失返回,这就是为什么要对不同负样本点的损失函数采取不同权重值的原因。
为什么对不同的负样本点用不同权重的损失函数呢?这是因为靠近ground truth的误检顶点组成的预测框仍会和ground truth有较大的重叠面积,如图5所示,是关于对不同负样本点的损失函数采取不同权重值的原因。对于每个顶点,只有一个ground truth,其他位置都是负样本。红色实线框是ground truth,绿色虚线是一个预测框,可以看出这个预测框的两个角点和ground truth并不重合,但是该预测框基本框住了目标,因此是有用的预测框,所以要有一定权重的损失返回,这就是为什么要对不同负样本点的损失函数采取不同权重值的原因。具体来讲是这样的:在训练过程,模型减少负样本,在每个ground-truth顶点设定半径r区域内都是正样本,这是因为落在半径r区域内的顶点依然可以生成有效的边界定位框,橘色圆圈就是根据ground truth的左上角顶点、右下角顶点和设定的半径值画出来的,半径是根据圆圈内的角点组成的框和ground truth的IOU值大于0.7而设定的,圆圈内的点的数值是以圆心往外呈二维的高斯分布exp(-(x2+y2)/2σ^2),σ=1/3设置的,其中,中心坐标是标注的角点定位。

三、Embedding(group corner)

前面介绍了关于角点的检测,在那部分中对角点的预测都是独立的,不涉及一个目标的一对角点的概念,因此如何找到一个目标的两个角点就是第三个输出embedding做的工作。这部分是受associative embedding那篇文章的启发,简而言之就是基于不同角点的embedding vector之间的距离找到每个目标的一对角点,如果一个左上角角点和一个右下角角点属于同一个目标,那么二者的embedding vector之间的距离应该很小。

embedding这部分的训练是通过两个损失函数实现的,etk表示属于k类目标的左上角角点的embedding vector,ebk表示属于k类目标的右下角角点的embedding vector,ek表示etk和ebk的均值。公式4用来缩小属于同一个目标(k类目标)的两个角点的embedding vector(etk和ebk)距离。公式5用来扩大不属于同一个目标的两个角点的embedding vector距离。
在这里插入图片描述

四、offset

从输入图像到特征图之间会有尺寸缩小,假设缩小倍数是n,那么输入图像上的(x,y)点对应到特征图上相应的值,但是取整会带来精度丢失,这尤其影响小尺寸目标的回归,Faster RCNN中的 ROI Pooling也是有类似的精度丢失问题。所以通过公式2计算offset,然后通过公式3的smooth L1损失函数监督学习该参数,和常见的目标检测算法中的回归支路类似。

这个值和目标检测算法中预测的offset类似却完全不一样,说类似是因为都是偏置信息,说不一样是因为在目标检测算法中预测的offset是表示预测框和anchor之间的偏置,而这里的offset是表示在取整计算时丢失的精度信息,也就是公式2所表达的内容。
在这里插入图片描述

五、Corner Pooling

该层有2个输入特征图,特征图的宽高分别用W和H表示,假设接下来要对图中红色点(坐标假设是(i,j))做corner pooling,那么就计算(i,j)到(i,H)的最大值(对应Figure3上面第二个图),类似于找到Figure2中第一张图的左侧手信息;同时计算(i,j)到(W,j)的最大值(对应Figure3下面第二个图),类似于找到Figure2中第一张图的头顶信息,然后将这两个最大值相加得到(i,j)点的值(对应Figure3最后一个图的蓝色点)。右下角点的corner pooling操作类似,只不过计算最大值变成从(0,j)到(i,j)和从(i,0)到(i,j)。
在这里插入图片描述
一个例子:
在这里插入图片描述

六、测试

模型测试时候的几个细节:
1、在得到预测角点后,会对这些角点做NMS操作,选择前100个左上角角点和100个右下角角点。
2、计算左上角和右下角角点的embedding vector的距离时采用L1范数,距离大于0.5或者两个点来自不同类别的目标的都不能构成一对。
3、测试图像采用0值填充方式得到指定大小作为网络的输入,而不是采用resize,另外同时测试图像的水平翻转图并融合二者的结果。
4、最后通过soft-nms操作去除冗余框,只保留前100个预测框。

参考:
https://zhuanlan.zhihu.com/p/53407590
https://blog.csdn.net/u014380165/article/details/83032273

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值