【每日一网】Day12:G-CNN简单理解

G-CNN

算法背景

从2016年以前的文章的目标检测的方法大都沿袭了{region proposal→CNN→classify}的思路。但是region proposal是一个非常耗费时间的操作,在RPN网络之前大部分使用的使用的都是selective search或者之类的算法,从原始图片中提取将近2k张图片,这个方法非常耗时,后来Faster Rcnn剔除了RPN网络之后,用网络提取region proposal,大大缩短了提取时间。
而G-CNN的思路,则是消除region proposal,与yolo和ssd不同,G-CNN工作借鉴了迭代的想法,把边框检测等价于找到初始边框到最终目标的一个路径,并使用迭代的方法逐步接近最终的目标

算法流程

在这里插入图片描述
在训练阶段,首先在图像中获取叠加的多尺度的规则网格(实际网格相互叠加,示意图中显示平铺以视觉化),然后通过GT与每一个网格的IOU进行每一个网格GT的分配,并完成训练过程,使得网格在回归过程中渐渐接近GT。在检测阶段,对于每一个BOX针对每一类获得置信分数,用最可能类别的回归器来更新box的位置

网络结构

在这里插入图片描述
G-CNN的网络可以采用任何的网络结构,包括alexnet、googlenet、vggnet等,网络结构如图,经过卷积层提取图像的特征,通过ROI pooling得到bbox的特征,经过全链接层以后,使用softmax进行分类和边界框回归,得到的结果进行下一次迭代。每次移动一小步,逐渐逼近最优解。

损失函数

G-CNN是一个迭代的过程,所以每次迭代都存在一个loss,假设B表示整个所有的bbox的构成的集合。Bi是第i个bbox,上表s表示的第s次迭代。在训练的时候,首先把IOU阈值大于0.2的边框分配一个GT,表示改变看移动的目标,分配函数如下所示:
在这里插入图片描述
公式(1)中的在这里插入图片描述
代表图片的GT,公式(1)的意义在于,在所有的IOU大于0.2的边框集合中,每一个边框选取一个最接近GT边框作为移动目标。但是直接从原始的的边框移动到目标边框是非线性的,为了解决这个问题,作者采用了分段的方法,每次只移动一小步,多次迭代,直到移动到最终的目标,公式(2)代表了每次移动的目标bbox:在这里插入图片描述
公式(2)中在这里插入图片描述
代表分配的目标边框。
G-CNN的目标损失函数如下:
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值