目标检测 综述

本文介绍了目标检测领域的关键概念和技术发展,涵盖了从滑动窗口、SelectiveSearch到深度学习方法如YOLO、Faster R-CNN及SSD的演进过程。讨论了不同算法的优缺点,并解释了评估指标如mAP和IOU的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

滑动窗口--Sliding Window

PASXAL VOC

评估标准

mAP

IOU 


常用的数据集

PASCAL VOC

PASCAL VOC--Pattern Analysisi Stattistical Modelling and Computational Learning, Visual Object Classes。名字真长~!~。它是有一套评估图像分类,检测,分割和人体姿势。跟多的用于检测,它包括4大类,20个所属类。

CUB_200_2011与CUB_200_2010

小型数据集,里面有200种鸟类相关内容。可以用来分类训练。

 

目标检测的方法历史

下面讲的是以cnn为基础的,目标检测--Object Detrection。

目标去检测性能的评估标准,预测的结果是否为目标--mPA(mean Average Precision);预测框与人工标记框的重合率IOU(Intersection Over Union)。

滑动窗口--Sliding Window

思路:(A)需要一个应景训练好的分类器;(B)把图像那招一定间隔和不同的大小分成若干个窗口;(C)最后在这西窗口上进行执行分类器,得到分类较高的分数,就认为检测到物体;(D)把分类分数排序,做比如非极大值抑制(Non-Maximum Supperssion,NMS),得到物体类别即所在图中区域。

优点:简单

缺点:耗时;对分类器的准确性依赖很严重;对分类器训练的材料要求高,不能有目标物体缺损。

所以用滑动窗口就不太现实,常见的是小型分类网络和滑动窗口法集合应用。下面是一个应用的论文。为了方便下载,我提供了论文的DOI。

Dan C Cireşan, Giusti A , Gambardella L M , et al. 
Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks[C]
// International Conference on Medical Image Computing and Computer-Assisted Intervention.
2013.
DOI:10.1007/978-3-642-40763-5_51 

Selective Search

这种算法是在滑动窗口上的升级。滑动窗口在图像上检测目标的时候,会有很大部分为不存在物体的区域,这种算法实在最后可能的区域进行搜索,从而提升准确率。

思路:存在物体的区域都应存在某种相似性或者连通性的区域,超像素(正常像素点间,虚拟出很多点)合并思路。步骤如下(A)分割图片,生成很多的小区域,看作超像素(B)然后根据区域相似性来合并图像,标准主要有颜色,大小,纹理等。不断地叠加合并为大区域的过程,最后整张图会合并成一个区域。其中每个区域都有外切矩形框起来,得到目标框,叫做Region Proposal。

优点:快,有目地性,更加准确。下面是论文,同样提供了DOI。

Uijlings J R R , K. E. A. van de Sande…. 
Selective Search for Object Recognition[J]. 
International Journal of Computer Vision, 2013, 104(2):154-171.
DOI:10.1007/s11263-013-0620-5 

SPP

spp,spatial pyramid pooling空间图像金字塔池。

思路:对整张图执行一次卷积的前向运算,得到最后一层的激活相图;通过某方式把·目标物体所在的区域部分的相应图拿出来,交给分类器。

这个是he kaiming研发的。他比rcnn在速度上得到巨大提升,但是继承了他的缺点,就是分段。

Fast rcnn

针对SPP这个问题,rcnn作者提出改进的方法,提取ROI特征后,把物体框的回归和分类两个任务的loss融合在一起。把SPP换成ROI池,

Faster R-CNN

r-cnn,Region-based Convolutional Neural Networks。他是通过Selective Search检测,CNN提取特征,然后分类出目标。比较常见的模型,faster r-cnn和mask r-cnn等等都是他的引深。当然Selective Search不一定准确,还要经过回归处理,修正他。

f

Girshick R , Donahue J , Darrell T , et al. 
Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]
// 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society, 
2014.

DOI:10.1109/CVPR.2014.81 

YOLO

yolo,you only look once。他是非基于Region Proposal。他的速度非常快,可以达到实时监测。

思想:把一个图片分成NxN的格子,以每个所在的位置和对应的内容为基础,来预测。

1、物体框。包括格子中心坐标center_x,center_y和框的bound_w,bound_h。每个格子预测B个物体框。

2、每个物体框是否有物体的置信度,如果包含预测物体,则用UoI来表示,如果没有,则用0.

3、每个格子预测出C个类别的概率分数,只与格子有关,与B物体框无关

输出的信息维度Bx(4+1)+C,得到的预测张量为NxNx(5B+C)。这里也就能看出来为什么yolo叫做one-step。他把目标检测转化为cnn,它可以做到实时检测目标。精度上没有rcnn高。

SSD

SSD,single shot multdetector。他同时借鉴了faster-rcnn和yolo两种思想。同样可以达到实时的水平和高准确率。

思路,他和yolo有点像一样,在卷积的最后的阶段得到一个NxN的感应区,然后和faster-rcnn一样借鉴anchor box的思想生成默认物体框。他没有Region Proosal+ ROI结合,他也是single shot和yolo一样。

与yolo相比,从一个分辨率大的图开始,逐渐得到一个分辨率小的图(图像金字塔),每个低分辨率都会得到分类树和物体框,也就是的打不通感应区的图像信息。

具体步骤如下:

1、把一个高分辨率的图分割,得到NxN的感应图

2、这组相应图的每个像素产生类似anchor box的k个默认物体框

3、其中每个框的大小和位置的修正量对应4个数值,每个框内物体所属类别对应C个数值。

4、可以用通道为k(C+4)的卷积得到预测框和结果。

发明这个人的作者在论文做了很多工作,进行对比性能。

unet

unet的名是因为他的网络形状,他的形状是个U型。

评估标准·

mAP

mAP叫做平均精度均值,其中AP(Average-Precision)的意思为精度P-召回R曲线的面积,AP也是P-R的一个指标。越好的分类器,AP值越高。mAP就是把每个类别的AP单独拿出来,然后计算他们的和平均值,这个值就代表检测目标的综合评价。

IOU 

用来衡量预测框与人工标记框的重合率,计算的公式:

Rate_{iou}=(A_{p}\bigcap A_{m})/A_{m}

Ap预测的图像框,Am人为框选的图像框。

在使用的时候,会预先设置阈值,当结果大于这个阈值,就是有效的目标。这种方法虽然简单,有时候并不合理,我们可以考虑一些极端的结果,比如说分辨率极高图。

损失函数

关于分类的

 

关于定位的

 

 

 

 

 

 

 

 

### YOLO网络目标检测综述 #### 原理 YOLO(You Only Look Once)是一种单阶段的目标检测方法,它将输入图像划分为多个网格单元格,并预测每个单元格内的边界框及其对应的类别概率。对于每一个可能含有物体中心点的网格单元,YOLO会预测一组固定数量的边框以及这些边框属于特定类别的置信度得分。这种设计使得YOLO能够一次性完成整个图片上的所有对象定位与分类任务,而不需要像传统的滑动窗口或区域提议方式那样分步处理[^1]。 #### 应用 实时目标检测已成为众多应用场景不可或缺的技术组件之一,特别是在以下几个方面: - **自动驾驶**:通过摄像头捕捉道路环境并迅速识别车辆、行人其他障碍物; - **机器人技术**:赋予机器视觉能力以便更好地理解周围世界并与之互动; - **视频监控**:自动分析场景内发生的活动并对异常情况进行报警; - **增强现实**:使虚拟元素可以精准叠加于真实环境中,提升用户体验质量; 上述领域依赖高效准确的对象感知功能来保障安全性功能性,而这正是YOLO所擅长之处。 #### 发展历程 自首次发布以来,YOLO已经历了数次重要的更新换代,各版本之间存在着显著的区别与发展进步: - **YOLOv1 (2016)**:开创性的提出了统一框架的概念,在速度准确性间取得了良好的折衷表现; - **YOLOv2 / SSD (2017)**:引入锚定盒机制提高了小物件检出率的同时增强了整体架构灵活性; - **YOLOv3 (2018)**:采用多尺度特征融合策略进一步提升了复杂背景下小尺寸物品的辨识效率; - **YOLOv4 (2020)**:集成了多种先进的训练技巧技术优化措施,如CSPNet、Mish激活函数等,从而大幅改善了模型性能; - **YOLOv5至v8 (2020至今)**:持续改进硬件加速支持、数据预处理流程等方面的工作,不断降低推理延迟并扩大适用范围; 随着每一次升级迭代,YOLO不仅解决了先前存在的局限性问题,还针对实际部署需求进行了针对性调整,使其成为当前最流行的一类目标检测解决方案之一。 ```python import torch from yolov5 import YOLOv5 model = YOLOv5('yolov5s.pt') # 加载预训练权重文件 results = model.detect(image_path='example.jpg', conf=0.5, iou=0.45) for result in results: print(f'Class: {result["class"]}, Confidence: {result["confidence"]:.2f}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

颐水风华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值