中科院陈智能：计算机视觉经典——深度学习与目标检测

最新推荐文章于 2024-01-29 19:59:05 发布

「已注销」

最新推荐文章于 2024-01-29 19:59:05 发布

阅读量2.4k

点赞数 1

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/100516444

版权

640?wx_fmt=jpeg

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会，百度为支持单位，读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第八期“深度学习”专场已于2019年8月25日下午在中科院举行。中科院陈智能为大家带来报告《计算机视觉经典——深度学习与目标检测》。

陈智能全场报告视频

陈智能，中国科学院计算技术研究所博士，香港城市大学博士后，现为中国科学院自动化研究所副研究员，硕士生导师。主要从事多媒体内容分析与检索、医学影像分析、机器视觉方面的科研工作，曾指导学生获得2018年百度全国大数据竞赛一等奖，2019年国际嵌入式深度学习目标检测模型评测竞赛冠军，在ACM Multimedia，CVPR，MICCAI等知名国际会议和IEEE TMM，PR，NN，ACM TOMM等知名期刊上发表论文50余篇。

报告内容：本次报告主要包括目标检测概述、传统目标检测方法、深度学习方法和竞赛分享四个部分。

640?wx_fmt=jpeg 计算机视觉经典——深度学习与目标检测

640?wx_fmt=png

陈智能老师首先以计算机视觉的基础概念引入，介绍了计算机视觉主要任务，由此引出了目标检测的概念及其存在的问题难点，并展示了目标检测的发展历程。计算机视觉（Computer Vision）是一门“教”会计算机如何去“看”世界的学科，与自然语言处理（Natural Language Process, NLP）及语音识别（Speech Recognition）并列为机器学习方向的三大热点方向。计算机视觉的理念与很多学科有部分重叠，包括：人工智能、数字图像处理、机器学习、深度学习、模式识别、概率图模型、科学计算以及一系列数学计算等。计算机视觉的包含很多任务，比如：图像分类（what），目标是为图像赋予一个或多个语义标签；目标检测（what& where），目标是找到图像中物体的类别及所在位置；图像语义分割（what& where），目标是找到图像中物体的类别并精确勾勒出其所在位置；图像实例分割（what& where），目标是当多个同类物体存在时将其一一区分出来。以上计算机视觉的任务·由粗粒度到细粒度可分为：图像分类 → 目标检测 → 图像语义分割→ 图像实例分割。

目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。其问题难点在于：物体的尺寸变化范围很大；摆放物体的角度，姿态不定；物体可以出现在图片的任何地方；物体还可以是多个类别。目标检测的发展历程经历了冷兵器时代（传统目标检测方法）和GPU之美时代（基于深度学习的目标检测方法），前者追求设计更强的特征，而后者追求网络结构、优化方法和损失函数的设计。

接着，回顾了包括VJ Detector（实时目标检测（人脸））、HoG特征（行人检测）和DPM（可变形的组件模型特征）等传统目标检测方法。VJ Detector算法提出的任务背景是在一张图像上检测某个特定目标（比如鸟）。由于目标可以以任意尺寸出现在任意位置，因此可以通过在图像上利用不同size的窗口滑动，并对数千个不同位置和尺寸的窗口逐一进行分类判别的方法来实现任务，但存在着消耗大量计算资源，且难以实现实时检测的问题。在上述背景下，出现了VJ Detector，它是第一个实时的图像人脸检测器，其实现原理主要为：1）将图像表示为积分图像，快速计算haar-like特征；2）采用Adaboost算法，基于多个haar-like弱分类器构建强分类器；3）采用cascade级联多个强分类器，快速过滤大量不相关窗口。VJ Detector主要在刚体（外观变化不大）或近似刚体的目标检测上有效。

640?wx_fmt=png

HoG特征算法主要生成了物体检测特征描述子，实现步骤如下：1）提取整个图像的梯度特征；2）基于滑动窗方法提取检测窗口；3）对检测窗口进行划分，提取每个子区域的梯度方向直方图；4）将梯度方向直方图特征进行拼接，形成HoG特征；5）调用SVM分类器对窗口进行目标有无分类。HoG特征算法在行人等视觉表观变化较大的非刚体上也有较好效果。

DPM（Deformable Part Model）算法，是一种从HoG衍生出来的，基于组件的检测特征及算法，实现步骤如下：1）在整个图像上提取升级版的HoG特征；2）设计根滤波器（整体）和组件滤波器（局部），两类滤波器之间存在一定的空间位置约束关系；3）旨在联合提取待检测目标的整体（如行人）和多个局部（如头颅、手臂、腿部）响应区域；4）最终检测结果的高响应区域是整体和局部高响应区域的叠加。DPM算法在HoG特征的基础上提取了更具辨识力的特征。

然后按照演化进程分别介绍了采用深度学习的目标检测两阶段方法和一阶段方法。深度卷积神经网络首先通过卷积层（CONV），激活层（RELU）和池化层（POOL）的组合多次出现来提取特征，然后通过多个全连接或特殊CNN结构作为输出层来做分类器、检测器或分割器。因此，通过深度神经网络可以直接从图像像素中提取高辨识度特征。

采用深度学习的目标检测两阶段方法包括R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和FPN等。R-CNN的实现步骤主要包括：1）候选区域生成，采用了选择性搜索（SelectiveSearch, SS），即根据颜色、纹理、尺寸和空间交叠相似度提取约2000个region proposal（候