中科院张士峰：基于深度学习的通用物体检测算法对比探索

最新推荐文章于 2024-09-14 15:52:47 发布

喜欢打酱油的老鸟

最新推荐文章于 2024-09-14 15:52:47 发布

阅读量1.2k

点赞数

文章标签：深度学习通用物体检测算法中科院张士峰

人工智能专栏收录该内容

4209 篇文章 351 订阅

订阅专栏

https://www.toutiao.com/a6674792954369933838/

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。由中国科学院大学主办，中国科学院大学学生会承办，读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第三期“计算机视觉”专场已于2019年3月24日下午在中科院举行。中科院张士峰博士为大家带来报告《基于深度学习的通用物体检测算法对比探索》。

张士峰，中科院自动化所2015级直博，导师李子青研究员，研究方向为基于深度学习的物体检测，主要包括通用物体检测、人脸检测、行人检测。目前已发表论文14篇，其中第一作者论文11篇，包括3篇CVPR、IJCV、ICCV、ECCV、IJCAI、AAAI等。在投论文7篇，在审专利4项，获CCF-CV学术新锐奖、百度奖学金、国家奖学金、唐立新奖学金、必和必拓奖学金、攀登一等奖学金、三好学生、国际人脸检测竞赛季军、最佳学生论文等荣誉。

报告内容：目前基于深度学习的通用物体检测算法大致可以分为两类：一步法检测器和二步法检测器。一步法检测器有较高的检测速度，但检测精度不如二步法检测器。而二步法检测有较高的检测精度，但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度，同时保持较高的检测效率，我们对一步法和二步法检测器进行了一系列探索，提出了RefineDet、SRN、ISRN等系列算法。此次分享将概括地介绍通用物体检测算法，以及我们自己一系列相关的工作。

中科院张士峰：基于深度学习的通用物体检测算法对比探索

基于深度学习的通用物体检测算法对比探索

中科院张士峰：基于深度学习的通用物体检测算法对比探索

中国科学院自动化研究所张士峰博士报告的主要内容包括物体检测的介绍、一二步法的对比探索和检测发展的讨论展望。

张士峰博士首先介绍了物体检测的定义，简单来说就是判断给定的一幅图像上是否存在感兴趣的物体，如果存在，就给出所有感兴趣物体的类别（What）和位置（Where）。紧接着讲到了物体检测的应用，如人脸检测，交通标志检测，车辆检测，车牌检测，行人检测，交通信号检测和行车道检测等。

然后以Faster-RCNN为例讲了物体检测的基本流程，主要包含两个阶段。

第一阶段包括：

1）预设一系列不同大小和比例的anchors。

2）整张图传入CNN提取特征。

3）RPN对anchors进行分类和回归，得到候选区域（proposals）。

第二阶段包括：

1）利用ROIPooling抠取每个候选区域的特征。

2）把抠取的特征送入到后续R-CNN网络。

3）对候选区域进行进一步分类和回归，得到最终的检测结果。

中科院张士峰：基于深度学习的通用物体检测算法对比探索

后面又讲到了物体检测的分类，一般可以分为两类，即一步法检测器和二步法检测器。一步法检测器，即为在原图上铺设一系列锚点框（anchor），利用一个全卷积网络，对这些锚点框进行一次分类和一次回归，得到检测结果。二步法检测器，即为在原图上铺设一系列锚点框（anchor），利用一个网络对这些锚点框进行两次分类和两次回归，得到检测结果。二步法检测器比一步法检测器多了一个步骤，在相同的条件下（相同的输入、anchor设置和实验环境），一步法胜在效率，而二步法的精度要更高一些。二步法检测器的典型算法包括 Faster-RCNN、R-FCN、FPN、SNIP和Cascade R-CNN，其中以Faster-RCNN最具代表性。一步法检测器的典型算法包括 YOLO、SSD、CornerNet 和RetinalNet，其中以SSD最具代表性。

之后总结了二步法检测器相对于一步法检测器的优势，即二阶段的分类、二阶段的回归和二阶段的特征。并讲到了为让一步法检测器具有二步法检测器的优势所进行的研究探索，即RefineDet。RefineDet的检测框架包括两个模块，即Anchor Refinement Module (ARM) 和ObjectDetection Module（ODM）模块。两个模块由TransferConnection Block (TCB) 连接。其中ARM模块的作用是过滤负样本和初步的边框校正，ODM模块的作用是基于ARM矫正过的锚点框，并利用更好的特征（感受野丰富，细节丰富，内容抽象）进行精细的分类和进一步的回归。后面又介绍了RefineDet的演变过程。

最后张士峰博士对物体检测的未来进行了展望，即更快的速度（满足嵌入式的需求）、更高的精度（解决特定的错误，如小尺度、遮挡）、多任务联合的 Multi-task（检测+属性、关键点、分割）、视频物体检测（利用帧间信息加速和提升精度）和 Learning Everything（学习anchor和NMS）。更多精彩的内容请观看视频的内容。