深度学习目标检测法进化史,看这一篇就够了

640?wx_fmt=jpeg


作者 | 黄浴,奇点汽车美研中心首席科学家兼总裁

来源 | 转载自知乎专栏自动驾驶的挑战和发展


本文将介绍自动驾驶中的深度学习目标检测的基本概念和方法,并对几个主要 Anchor free 方法进行了比较,希望对读者有所帮助,以下为正文:


Anchor free深度学习的目标检测方法是回归,以前是没有anchor(“锚”?)的,现在觉得还是去掉anchor好,主要是因为灵活性强,今后硬件芯片兼容性好。


回顾一下,目标检测分单步和两步,单步法的历史中从SSD和YOLO-2开始引入锚框(anchor box),而两步法直到Faster RCNN才开始采用“锚”的想法。 

什么是锚框呢?其实就是固定 的参考框。锚框的出现,使得训练时可以预设一组不同尺度不同位置的锚框,覆盖几乎所有位置和尺度, 每个锚框负责检测与其区域交叉比(intersection over union, IOU)大于阈值的目标,这样问题就转换为"这个锚框中有没有认识的目标,目标框偏离锚框多远"的问题。


  • UnitBox: An Advanced Object Detection Network

  • Densebox

  • Yolo-1/(-2/3)

  • CornerNet

  • ExtremeNet

  • FSAF: Feature Selective Anchor-Free

  • FCOS: Fully Convolutional One-Stage

  • FoveaBox

  • Center and Scale Prediction: A Box-free Approach for Object Detection

  • Region Proposal by Guided Anchoring(GA-RPN)

  • CenterNet: Objects as Points

  • CenterNet: Keypoint Triplets for Object Detection

  • CornerNet-Lite: Efficient Keypoint Based Object Detection


UnitBox: 一个先进的检测网络


主要思想:Intersection over Union (IoU) loss function for bounding box prediction


640?wx_fmt=jpeg

架构


640?wx_fmt=jpeg

IoU loss vs l2 loss


640?wx_fmt=jpeg

l2 loss和IoU loss 结果比较


DenseBox:统一地标定位和目标检测



基本思想:直接预测目标框和目标类。



640?wx_fmt=jpeg




系统流水线:1) 图像金字塔. 2) 类似编码器-解码器. 3) feature map 转换成 bounding boxes,加NMS处理。


640?wx_fmt=jpeg

DenseBox


640?wx_fmt=jpeg

地标定位 DenseBox 


YOLO目标检测


检测定义为一个张量的回归问题,直接通过张量的估计得到目标框位置和类别概率。


640?wx_fmt=jpeg
640?wx_fmt=jpeg
640?wx_fmt=jpeg



注:之后YOLO-2/3版采用了anchor方法,这里也加在一起参考。


YOLO9000: 更好、更快、更强


Darknet-19:19卷积层和5个最大池层


9418 种类别的WordTree


640?wx_fmt=jpeg

使用WordTree层次结构组合数据集


640?wx_fmt=jpeg

具有尺寸先验和位置预测的边界框


640?wx_fmt=jpeg

 VOC 和 COCO上的聚合框维度


640?wx_fmt=jpeg

结果


YOLOv3: 逐步改进


640?wx_fmt=jpeg

Darknet-53


CornerNet: 将对象检测为配对关键点


把检测目标框变成一对关键点的问题,即左上角和右下角,这样就消除了锚框的设计麻烦。另外,采用的角点池化(corner pooling)技术帮助CNN更好地定位角点位置。下图给出了系统流程图:CNN模型输出两个关键点的各自热图(heatmap),同时各跟一个嵌入向量。同一个目标的角点,训练后的神经网络会预测类似的嵌入。



640?wx_fmt=jpeg



将对象检测为组合在一起的一对边界框角



下图是定位的角点池化技术:每个特征图通道沿着两个方向取最大值,然后求和。


640?wx_fmt=jpeg

Corner pooling


640?wx_fmt=jpeg

用于训练的“Ground-truth” 热图


测试流程图:沙漏型的核心网络的后面跟着两个预测模块定位和聚类焦点。


640?wx_fmt=jpeg


定义loss函数聚类corner:push和pull




640?wx_fmt=jpeg


ExtremeNet:通过分组极端点和中心点进行自下而上的物体检测


主要思想:也是将目标检测变成了纯粹关键点估计问题,包括目标的4个extreme points 和1个中心点,将这几何校准的5个点组成一个目标框。


下图是系统流程图:类似CornerNet,对每个目标类,CNN网络预测5个热图,只有几何中心的热图响应足够大才会生成目标框。



640?wx_fmt=jpeg


该网络预测每个类别的四个极端点热图和一个中心热图



如下是模型的测试流程图:输入图像得到5个C-通道热图,4个2-通道类别无关的偏差图(offset map)。热图是通过加权逐像素逻辑回归(logistic regression)训练得到,. 而偏差图则是由平滑L1 损失函数训练的。


640?wx_fmt=jpeg

下图是中心分组(Center grouping)算法:输入是5个热图,输出则是带有可信度的目标框。


640?wx_fmt=jpeg


下图是边缘聚集的结果:当一个边缘的多个点都成为extreme point,可见边缘聚集使中间像素的可信度得到增大。


640?wx_fmt=jpeg


FSAF:功能选择性无锚模块


主要思想:基于特征金字塔网络(feature pyramid structure,FPN)的在线特征选择能力, 在训练时可以动态分配每个实例到最适合的特征层,在推理时能够和带锚的模块分支一起工作,最后并行地输出预测。


640?wx_fmt=jpeg



基于锚的方法


640?wx_fmt=jpeg


下图展示一个特征层中的实例监督信号,其中两个损失函数:分类的focal loss 和目标框回归的IoU loss 。


640?wx_fmt=jpeg


监督信号指示无锚分支的一个特征级别中的实例

在线特征选择的操作如图:每个实例通过无锚框的所有层计算出所有有效区域的分类损失和回归损失,在最小损失的那层构建该实例的监督信号。


640?wx_fmt=jpeg

在线特征选择机制


640?wx_fmt=jpeg具有 FSAF 模块的RetinaNet 网络架构


FCOS: 完全卷积的一步目标检测


主要思想:是分割,不需要锚框也不需要区域提议。这样,避免了锚框在模型训练中涉及的重叠计算和性能敏感的参数设计环。


FCOS中定义了一个新损失函数“中心度(centerness)”,如下图( 红和蓝对应 1 和 0, 其他颜色位于其中)。



640?wx_fmt=png

640?wx_fmt=jpeg


640?wx_fmt=jpeg

 FCOS网络架构


640?wx_fmt=jpeg

结果


FoveaBox: 基于锚的目标检测之外


主要思想:直接学习目标存在的概率和目标框的坐标位置,其中包括预测类别相关的语义图和生成类别无关的候选目标框,目标框的大小和特征金字塔的表示相关(如图所示)。


640?wx_fmt=jpeg

FoveaBox 目标检测


FoveaNet的网络结构如图,一个基于ResNet的特征金字塔网络(FPN)送入两个子网络, 一个做分类,一个做预测。


640?wx_fmt=jpeg

FoveaBox 网络架构


640?wx_fmt=jpeg

结果


引导锚定的区域proposal (GA-RPN)


利用语义特征指导抛锚,称为指导性的抛锚。一起预测感兴趣目标的中心位置以及不同位置的尺度和长宽比。有代码://github.com/open-mmlab/m.


640?wx_fmt=jpeg

GA-RPN


对特征金字塔的每个输出特征图,采用带有两个分支的锚框生成模块分别预测锚位置和形状。一个特征适应模块对原始特征图处理,使其更能体现锚的形状。



640?wx_fmt=jpeg


Anchor location target


采用多级特征,根据其尺度把真实目标(ground truth objects)提供给不同特征级,相应定义 CR, IR和OR 。


640?wx_fmt=jpeg

性能比较


CenterNet: 目标定义为点


把目标定义成一个单点,即目标框的中心点(下图),检测器采用关键点估计找到中心点并从其关键点的特征回归其他目标特性,如大小,3D位置,朝向和姿势。


640?wx_fmt=jpeg

目标定义为边界框中心点


640?wx_fmt=jpeg

(a) 标准anchor 检测. (b) 中心点检测


下面是CenterNet的模型框图,其中数字是步进(stride)量:(a) 沙漏网络;(b) 带转置卷积的ResNet,在每个上采样层前面加了个3 × 3 可变形卷积层(deformable convolutional layer);(c) 语义分割的DLA-34 (Deep layer aggregation);(d) 修正的 DLA-34,在可变形卷积层加更多的跳线(skip connections)上采样步骤。


640?wx_fmt=jpeg

模型图


CenterNet: 三个关键点目标检测


主要思想:基于前面提到的CornerNet,检测目标变成三个关键点的估计(a triplet of keypoints)。


架构图:一个核心网络执行级联角点池化(cascade corner pooling)和中心点池化(center pooling ),输出两个角点热图和一个中心关键点热图;和CornerNet类似,一对检测的角点和嵌入用来检测潜在目标框;然后检测的中心关键点确定最终的框位置。


640?wx_fmt=jpeg

CenterNet


640?wx_fmt=jpeg

(a) 中心点池化. (b) 角点池化. (c) 层叠角点池化


下图给出角点池化和中心点池化的结构图。


640?wx_fmt=jpeg

中心点池化模块 (a) 层叠顶部角点池化模块(b)


CornerNet-Lite: Efficient Keypoint Based Object Detection


CornerNet-Lite:CornerNet-Saccade(attention mechanism)+ CornerNet-Squeeze


CornerNet-Saccade:缩小的图像中产生的目标框,加上attention map,预测一组可能的目标位置。在每个位置附近取一个小区域,检测目标。对检测的目标位置排序,取前k个,运行NMS。


640?wx_fmt=jpeg

CornerNet-Saccade


模型加速:SqueezeNet/MobileNets for CornerNet-Squeeze

  1. 替换3 × 3 kernels 成 1 × 1 kernels;

  2. 减少输入通道 to 3 × 3 kernels;

  3. 下采样.

640?wx_fmt=jpeg

结果


中心和尺度预测:一种无边界框目标检测方法


主要思想是:目标中心点,语义抽象。


目标检测变成一个直接的中心和尺度预测。最后卷积有两个通道,一个是关于中心位置的热图,另一个是中心的尺度图。


640?wx_fmt=jpeg

CSP (Center and Scale Prediction) 检测器


包括两个成分:特征提取和检测。前者把不同分辨率的特征图连在一起,后者是卷积层和两个预测层,分别对应中心位置和尺度大小。


640?wx_fmt=jpeg

CSP 架构


原文链接:https://zhuanlan.zhihu.com/p/64563186


(*本文为 AI科技大本营转载文章,转载请联系原作者


精彩推荐


“只讲技术,拒绝空谈2019 AI开发者大会将于9月6日-7日在北京举行,这一届AI开发者大会有哪些亮点?一线公司的大牛们都在关注什么?AI行业的风向是什么?2019 AI开发者大会,倾听大牛分享,聚焦技术实践,和万千开发者共成长。


目前,大会盲订票限量发售中~扫码购票,领先一步!


640?wx_fmt=jpeg

640?wx_fmt=jpeg


推荐阅读


640?wx_fmt=png 你点的每个“在看”,我都认真当成了喜欢
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目标检测是计算机视觉领域的一个重要任务,它的发展历程可以分为以下几个阶段: 1. 基于手工特征的方:最早的目标检测是基于手工设计的特征,例如Haar特征、HOG特征等。这些方需要人工设计特征,计算量大,且对光照、姿态等变化敏感。 2. 基于机器学习的方:随着机器学习算法发展目标检测开始使用机器学习算法来自动学习特征。其中比较典型的算法是基于AdaBoost的Viola-Jones算法和基于支持向量机(SVM)的方。 3. 基于深度学习的方深度学习的出现使得目标检测得到了质的飞跃。最早的深度学习目标检测算法是R-CNN系列算法,它们将目标检测问题转化为分类问题,先使用选择性搜索等算法提取候选框,再对每个候选框进行分类。后来,Fast R-CNN、Faster R-CNN、YOLO、SSD等算法相继提出,将候选框的生成和分类合并到一个网络中,进一步提高了检测速度和准确率。 4. 单阶段目标检测算法:为了进一步简化目标检测算法,单阶段目标检测算法应运而生。这类算法包括YOLOv3、RetinaNet、EfficientDet等,它们将目标检测问题转化为一个回归问题,直接输出目标的位置和类别,不需要生成候选框,从而更加高效和精确。 总之,随着深度学习技术的不断发展目标检测算法的效果和速度得到了极大的提升,成为计算机视觉领域研究的热点之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值