深度学习与CV教程(12) | 目标检测 (两阶段,R-CNN系列)

最新推荐文章于 2024-06-21 11:29:07 发布

pythonxxoo

最新推荐文章于 2024-06-21 11:29:07 发布

阅读量2.4k

点赞数 1

分类专栏：计算机文章标签：深度学习目标检测 r语言计算机

本文链接：https://blog.csdn.net/pythonxxoo/article/details/125176554

版权

🚀 优质资源分享 🚀

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

ShowMeAI研究中心

作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/37
本文地址：http://www.showmeai.tech/article-detail/271
声明：版权所有，转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容

Detectionand Segmentation; 深度学习与计算机视觉; Stanford CS231n

本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记，对应的课程视频可以在这里查看。更多资料获取方式见文末。

引言

ShowMeAI在前面的内容中给大家做了很多图像分类的介绍，主要围绕卷积神经网络（LeNet / AlexNet / NIN / VGG / Google / ResNet / MobileNet / squeezenet）讲解，但计算机视觉领域有其他一些更为复杂的任务，例如本篇开始介绍的目标检测（object detection）问题。

1. 计算机视觉任务

大家知道人工智能领域的3大热点方向是计算机视觉（CV，computer vision）、自然语言处理（Natural Language Process， NLP ）和语音识别（Speech Recognition） 应用。而计算机视觉领域又有图像分类、目标检测、图像分割三大任务，如下图所示

计算机视觉任务; 图像分类 / 目标检测 / 图像分割

这3大任务其实对应机器视觉理解图像的3个主要层次：

1.1 图像分类（Classification）

图像分类任务中，我们要将图像识别判定为某个类别。它是最简单、最基础的图像理解任务，也是深度学习模型最先取得突破和实现大规模应用的任务。大家在前面也了解到了 ImageNet 这个权威评测集，每年的ILSVRC催生了大量的优秀深度网络结构，为其他任务提供了基础。

有一些其他的应用，包括人脸识别、场景识别等都可以化归为分类任务来解决。

1.2 目标检测（Detection）

图像分类任务关心整体图片类别，而目标检测则关注特定的物体目标，要求在图片中，同时识别出目标物的类别信息和位置信息（是一个classification + localization的问题）。

相比分类，目标检测任务要求我们需要从背景中分离出感兴趣的目标，并确定这一目标的描述（类别和位置），检测模型的输出形式通常是一个列表，列表的每一项使用一个数组给出检出目标的类别和位置（常用矩形检测框的坐标表示）。

1.3 图像分割（Segmentation）

图像分割包括语义分割（semantic segmentation）和实例分割（instance segmentation），前者是对前背景分离的拓展，要求分离开具有不同语义的图像部分（相当于像素级别的分类），而后者是检测任务的拓展，要求描述出目标的轮廓（相比检测框更为精细）。

分割是对图像的像素级描述，它赋予每个像素类别意义，适用于理解要求较高的场景，如无人驾驶中对道路和非道路的分割，医疗影像中对于不同区域的划分。

1.4 总结

图像分类对应将图像划分为单个类别的过程，它通常对应于图像中最突出的物体。实际现实世界的很多图像通常包含多个物体，如果仅仅使用图像分类模型分配单一标签是非常粗糙的，并不准确。而目标检测（object detection）模型可以识别一张图片的多个物体，并可以给出不同物体的具体位置（边界框）。目标检测在很多场景有用，如无人驾驶和安防系统。

2. 常用目标检测（Object Detection）算法综述

2.1 总体介绍

常见的经典目标检测算法如下图所示：

目标检测的常用算法; Object Detection

目标检测的基本思路是：解决定位（localization） + 识别（Recognition） 两个任务。

一个大致的pipeline如下图所示，我们可以用同样的特征抽取过程，借助两个不同的分支输出。

一个分支用于做图像分类，即全连接 + Softmax 判断目标类别，和单纯图像分类区别在于这里还另外需要一个「背景」类。
另一个分支用于识别目标位置，即完成回归任务输出四个数字标记包围盒位置(例如中心点横纵坐标和包围盒长宽)，该分支输出结果只有在分类分支判断不为「背景」时才使用。

目标检测的基本思路; 定位 localization + 识别 Recognition

2.2 传统方法

传统的目标检测框架，主要包括三个步骤：

① 利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域；
② 提取候选区域相关的视觉特征。比如人脸检测常用的 Harr 特征；行人检测和普通目标检测常用的 HOG 特征等；
③ 利用分类器进行识别，比如常用的 SVM 模型。

最低0.47元/天解锁文章

pythonxxoo

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
深度学习与CV教程(12) | 目标检测 (两阶段,R-CNN系列)

本系列为斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记，对应的课程视频可以在这里查看。更多资料获取方式见文末。ShowMeAI在前面的内容中给大家做了很多图像分类的介绍，主要围绕卷积神经网络（LeNet / AlexNet / NIN / VGG / Google / ResNet / MobileNet / squeezenet）讲解，但计算机视觉领域有其他一些更为复杂的任务，例如本篇开始介绍的目标检测（object
复制链接

扫一扫