目标检测 Object Detection

明月光舞

已于 2024-07-10 20:29:33 修改

阅读量1k

点赞数 32

分类专栏：计算机视觉文章标签：计算机视觉目标检测深度学习 YOLO 神经网络

于 2024-07-01 15:20:49 首次发布

本文链接：https://blog.csdn.net/weixin_43331421/article/details/140091236

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、基本概述
二、算法原理
三、方法评价/考核指标
- 1.基础参数
- 2.评价指标
四、数据集
四、目标检测的发展和未来趋势
参考链接

前言

在数字化时代的浪潮中，目标检测技术以其独特的魅力和无可比拟的实用价值，成为计算机视觉领域的璀璨明珠。目标检测技术旨在模仿人类视觉系统的功能，通过算法模型，定位并识别图像或视频中的具体目标。从早期的简单算法到现今的深度学习方法，这一领域经历了飞速的发展，其应用范围也从简单的图像分类扩展到了复杂的三维空间识别。
本文旨在梳理一个目标检测技术的概览，包括其基本概念、主流技术、应用领域，以及这个领域的发展历程和未来趋势，并总结了各种评价指标来衡量目标检测模型的性能。
在这里插入图片描述

一、基本概述

通过总结对目标检测技术的基本概念、涉及的关键问题、主要分类及典型应用四个方面进行概述，快速形成对该技术的整体了解。

1.基本概念（whtat？）

目标检测（Object Detection）是一段时间以来计算机视觉（Computer Vision）四大任务中最受欢迎的任务之一，其他三大任务分别为目标分类、目标定位、目标分割。由于该任务更加接近或具有人类视觉的特点，不仅能区分目标类别，还能分辨位置，所以也是计算机视觉任务中最受追捧的任务之一。
该技术的主要任务：是解决“是什么”“在哪里”的问题，即从图像中定位出所有感兴趣目标的位置，并确定他们的类别。
目标检测也面临着各种挑战：**主要是由于各类目标物体及所处环境并非一直处于理想状态，有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰。

2.关键问题

（1）分类问题：即图片（或某个区域）中的图像属于哪个类别。
（2）定位问题：目标可能出现在图像的任何位置。
（3）大小问题：目标有各种不同的大小。
（4）形状问题：目标可能有各种不同的形状。

3.主要方法分类

目标检测的方法经过三十多年的发展，主要可以分为传统方法和基于深度学习的方法。
在这里插入图片描述
传统方法：大多通过手工设计特征提取器、分类器、并集合滑动窗口等进行图像目标的检测，工作效率和准确性较低，另外受限于计算机性能、传感器性能等因素，其应用场景大多已被更高性能的深度学习算法取代。
基于深度学习的方法：主要分为两类：Two stage和One stage。
1）Tow Stage先进行区域生成，该区域称之为region proposal（简称RP，一个有可能包含待检物体的预选框，即候选区域），再通过卷积神经网络进行样本分类。
任务流程：特征提取 --> 生成RP --> 分类/定位回归。
经典的tow stage目标检测算法为RCNN系列：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。
2）One Stage
不用RP，直接在网络中提取特征来预测物体分类和位置。
任务流程：特征提取–> 分类/定位回归。
常见的one stage目标检测算法有：OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等，其中YOLO系列最为典型。

4.典型应用

1）人脸检测
手机解锁、智能门控、员工考勤签到、人脸支付、车站、机场实名认证等；
公共安全：逃犯抓捕、走失人员检测；
2）行人检测
智能辅助驾驶、安防监控、暴恐检测（根据面相识别暴恐倾向）、移动侦测、区域入侵检测、安全帽/安全带检测等；
3）车辆检测
自动驾驶、违章查询、关键通道检测、广告检测（检测广告中的车辆类型，弹出链接）；
4）遥感检测
大地遥感，如土地使用、公路、水渠、河流监控‘
农作物监控；
军事检测等。

二、算法原理

目标检测分为两大系列——RCNN系列和YOLO系列，RCNN系列是基于区域检测的代表性算法，YOLO是基于区域提取的代表性算法，另外还有著名的SSD是基于前两个系列的改进。

1. 候选区域产生
很多目标检测技术都会涉及候选框（bounding boxes）的生成，物体候选框获取当前主要使用图像分割与区域生长技术。区域生长(合并)主要由于检测图像中存在的物体具有局部区域相似性(颜色、纹理等)。目标识别与图像分割技术的发展进一步推动有效提取图像中信息。

1）滑动窗口
通过滑窗法流程图可以很清晰理解其主要思路：首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率，则认为检测到了物体。对每个不同窗口大小的滑窗都进行检测后，会得到不同窗口检测到的物体标记，这些窗口大小会存在重复较高的部分，最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终，经过NMS筛选后获得检测到的物体。
滑窗法简单易于理解，但是不同窗口大小进行图像全局搜索导致效率低下，而且设计窗口大小时候还需要考虑物体的长宽比。所以，对于实时性要求较高的分类器，不推荐使用滑窗法。
* 在这里插入图片描述 2）选择性搜索
① 什么是选择性搜索
滑窗法类似穷举进行图像子区域搜索，但是一般情况下图像中大部分子区域是没有物体的。学者们自然而然想到只对图像中最有可能包含物体的区域进行搜索以此来提高计算效率。选择搜索（selective search，简称SS）方法是当下最为熟知的图像bounding boxes提取算法，由Koen E.A于2011年提出。
选择搜索算法的主要思想：图像中物体可能存在的区域应该是有某些相似性或者连续性区域的。因此，选择搜索基于上面这一想法采用子区域合并的方法进行提取bounding boxes。首先，对输入图像进行分割算法产生许多小的子区域。其次，根据这些子区域之间相似性(相似性标准主要有颜色、纹理、大小等等)进行区域合并，不断的进行区域迭代合并。每次迭代过程中对这些合并的子区域做bounding boxes(外切矩形)，这些子区域外切矩形就是通常所说的候选框。在这里插入图片描述
② 选择搜索流程
step0：生成区域集R
step1：计算区域集R里每个相邻区域的相似度S={s1, s2,…}
step2：找出相似度最高的两个区域，将其合并为新集，添加进R
step3：从S中移除所有与step2中有关的子集
step4：计算新集与所有子集的相似度
step5：跳至step2，直至S为空
③ 选择搜索优点
计算效率优于滑窗法
由于采用子区域合并策略，所以可以包含各种大小的疑似物体框
合并区域相似的指标多样性，提高了检测物体的概率

2. 数据表示
经过标记后的样本数据如下所示：
在这里插入图片描述

3. 效果评估
使用IoU（Intersection over Union，交并比）来判断模型的好坏。所谓交并比，是指预测边框、实际边框交集和并集的比率，一般约定0.5为一个可以接收的值。

4. 非极大值抑制
预测结果中，可能多个预测结果间存在重叠部分，需要保留交并比最大的、去掉非最大的预测结果，这就是非极大值抑制（Non-Maximum Suppression，简写作NMS）。如下图所示，对同一个物体预测结果包含三个概率0.8/0.9/0.95，经过非极大值抑制后，仅保留概率最大的预测结果。

在这里插入图片描述

由于篇幅原因，具体算法的介绍将在后续专门介绍，期待与大家互相学习。

三、方法评价/考核指标

1.基础参数

在评估目标检测模型的性能时，通常会先从以下四个基本参数出发，并进一步构成更复杂的指标：
（1）正确的正向预测（True Positive，TP）：
正确的正向预测是指模型正确地识别出正样本（即感兴趣的对象）。

在行人检测任务中，模型预测某个区域有行人，如果该区域确实存在行人，这就是一个TP。
在医疗图像分析中，如果模型预测一个图像包含恶性肿瘤，并且实际上图像确实包含恶性肿瘤，那么这就是一个TP。
在邮件分类中，模型将一封实际为垃圾邮件的邮件正确地分类为垃圾邮件，这也是一个TP。
在交通监控系统中，如果模型预测到一辆车正在违章停车，并且车辆确实违章停车了，这同样是一个TP。

（2）错误的正向预测（False Positive，FP）：
错误的正向预测发生在模型错误地标记出了不存在的正样本。

以行人检测为例，如果模型预测某个区域有行人，但实际上那里没有行人，这就是一个FP。
在面部识别入侵检测系统中，系统错误地将一张动物的照片识别为人脸，这就是FP。
在商品检测中，如果模型错误地将背景中的图案识别为一个商品，这也是FP。
在天气预测中，如果模型预报将会下雨，而实际上天气晴朗，这也可以视为一个FP的情况。

（3）错误的负向预测（False Negative，FN）：
错误的负向预测是指模型未能检测到实际存在的正样本。

在行人检测任务中，如果模型未能预测到某个区域实际存在的行人，这就构成了FN。
在安全监测系统中，如果模型没有检测到实际存在的未经授权的入侵者，这是FN。
在股票市场分析中，如果模型未能预测到即将发生的价格上涨，即使实际上股票价格确实上涨了，这也是FN。
在农业病虫害检测中，如果模型未能识别出实际存在的病虫害，导致遗漏治疗，这是FN。

（4）正确的负向预测（True Negative，TN）：
正确的负向预测指的是模型正确地预测某个区域没有正样本。

在行人检测中，如果在一个区域没有行人，模型也没有检测到行人，那么这就是一个TN。
在网络安全中，如果系统没有对合法的网络流量发出警报，那么这些实例都是TN。
在文本分析中，如果模型将一封正常邮件正确地标记为非垃圾邮件，这是TN。
在质量控制中，如果一个检测系统正确地识别出一个

最低0.47元/天解锁文章

明月光舞

关注

32
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
目标检测 Object Detection

目标检测技术以其独特的魅力和无可比拟的实用价值，成为计算机视觉领域的璀璨明珠。目标检测技术旨在模仿人类视觉系统的功能，通过算法模型，定位并识别图像或视频中的具体目标。从早期的简单算法到现今的深度学习方法，这一领域经历了飞速的发展，其应用范围也从简单的图像分类扩展到了复杂的三维空间识别。本文旨在梳理一个目标检测技术的概览，包括其基本概念、主流技术、应用领域，以及这个领域的发展历程和未来趋势，并总结了各种评价指标来衡量目标检测模型的性能。
复制链接

扫一扫