[深度学习从入门到女装]RetinaNet

论文地址:Focal Loss for Dense Object Detection

 

这是凯明大神所在的facebook AI工作组18年提出来的一篇目标检测的论文

文中提到说,目前目标检测有两种类型框架,

一种是two-stage,例如RCNN、fastRCNN、fasterRCNN、maskRCNN等这一系列的,two-stage分为两个阶段,第一个阶段使用CNN提取到特征图之后,使用region proposal network得到类别的感兴趣区域,第二个阶段使用classifier进行类别的回归,最终实现检测,这种方式分两个步骤,比较麻烦,检测速度比较慢,但是效果准确率很高

另一种就是one-stage,例如YOLO、SSN等这一系列的,只有一个阶段,直接使用CNN提到多尺度特征图之后,根据人为选定的anchor,使用不同scale和不同aspect ratios在不同尺度的feature map上进行感兴趣区域的提取,以来覆盖整个图片,然后直接对这些感兴趣anchor使用CNN进行位置和类别的回归,最后使用Non-Maximum Suppression得到最终的检测结果,一步达到检测的结果, 这种方式一步到位,检测速度较快,但是准确率相较于two-stage的方法有所下降

这篇文章分析one-stage对于two-stage的方法准确率下降的原因在于类别分布不均不平衡,two-stage使用proposal的方法(Selective Search , EdgeBoxes ,DeepMask , RPN )在每张图上能得到1-2k左右的感兴趣区域,很大程度上过滤掉了背景,只留下需要分类的前景,但是one-stage使用多尺度anchor的方法在每张图上能到100k左右的感兴趣区域,相当于是对全图的均匀采样,并没有区分掉背景和需要分类的前景,背景和需要分类的前景之间的数量分布不存,使用传统的交叉熵loss(-logp)会导致训练效果降低,因此检测率有所下降,因此本文提出了一种能够解决这种类别不平衡的loss,称为focal loss,为了验证这个focal loss有效,提出了one-stage网络RetinaNet来验证

FOCAL LOSS

1、cross entropy loss(CE loss)

 

2、Balanced Cross Entropy

就是使用一个超参数来调节

 

3、Focal Loss

\gamma=0的时候就变成balanced CE,本文的实验中\gamma=2效果最好

 

RetinaNet

RetinaNet结构如图所示,就是resNet+FPN的合体,在FPN上的每层feature map上使用CNN进行class和box的子网络回归

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值