python目标检测入门基础知识_图像处理之目标检测的入门总结

最新推荐文章于 2024-07-30 16:23:33 发布

weixin_39933713

最新推荐文章于 2024-07-30 16:23:33 发布

阅读量761

点赞数

文章标签： python目标检测入门基础知识

本文链接：https://blog.csdn.net/weixin_39933713/article/details/114452667

版权

1 背景介绍

目标检测，object detection，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。

目标检测要解决的问题有两个：物体在哪里，物体是什么的整个流程问题。

目标检测问题的难点：物体的尺寸变化范围很大；摆放物体的角度，姿态不定；而且可以出现在图片的任何地方；物体还可以是多个类别。

目前主要算法分两类：1) 候选区域/框 + 深度学习分类；2) 基于深度学习的回归方法

目标检测中有很大一部分工作是做图像分类。对于图像分类，不得不提的是2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上，机器学习泰斗 Geoffrey Hinton 教授带领学生Krizhevsky使用卷积神经网络将ILSVRC分类任务的Top-5 error降低到了15.3%，而使用传统方法的第二名 top-5 error高达 26.2%。

此后，卷积神经网络CNN占据了图像分类任务的绝对统治地位。

2 候选区域+深度学习

通过提取候选区域，并对相应区域进行以深度学习方法为主的分类的方案，如：

2.1 R-CNN(Selective Search + CNN + SVM)

先找出图中目标可能出现的位置，即候选区域(Region Proposal)。

利用图像中的纹理、边缘、颜色等信息，可以保证在选取较少窗口(几千甚至几百)的情况下保持较高的召回率(Recall)。

有了候选区域，剩下的工作实际就是对候选区域进行图像分类的工作(特征提取+分类)。

2014年，RBG(Ross B. Girshick)使用 Region Proposal + CNN代替传统目标检测使用的滑动窗口+手工设计特征，设计R-CNN框架，使得目标检测取得巨大突破，并开启了基于深度学习目标检测的热潮。

R-CNN的简要步骤如下

输入测试图像

利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域Region Proposal

因为取出的区域大小各自不同，所以需要将每个Region Proposal缩放(warp)成统一的227x227的大小并输入到CNN，将CNN的fc7层的输出作为特征

将每个Region Proposal提取到的CNN特征输入到SVM进行分类

R-CNN 存在一个较大的问题：R-CNN虽然不再像传统方法那样穷举，但R-CNN流程的第一步中对原始图片通过Selective Search提取的候选框region proposal多达2000个左右，而这2000个候选框每个框都需要进行CNN提特征+SVM分类，计算量很大，导致R-CNN检测速度很慢，一张图都需要47s。

2.2 SPP-net(ROI Pooling)