目标检测算法two-stage-one-stage

目标检测旨在定位图片中的物体并分类,面临尺寸、角度变化及多类别的挑战。深度学习方法分为two-stage和one-stage,前者如R-CNN系列,后者如YOLO、SSD,追求高速准确的实时检测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是目标检测?

目标检测object detection, 就是在给定的图片中精确找到物体所在的位置,并标注出物体的类别,所以目标检测要解决的问题有两个:

(1) 目标在哪里?表现就是给我这个物体的包围框box的左上和右下的坐标(xmin,ymin,xmax,ymax)

(2)目标是什么?是人还是车还是飞机?

难点在哪里?

上面的两个问题并不容易解决,目标的尺寸范围很大,一个人有可能只占据了一张图片的1/10,可能只有20个像素,也可能覆盖了整张图片,有1000个像素;目标物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别.

深度学习框架下的方法都有那些?

目前的目标检测算法分为两类:

一类是two-stage,two-stage检测算法将检测问题划分为两个阶段,首先产生候选区域(region proposals),然后对候选区域分类(一般还需要对位置精修),这一类的典型代表是R-CNN, Fast R-CNN, Faster R-CNN,Mask R-CNN家族。他们识别错误率低,漏识别率也较低,但速度较慢,不能满足实时检测场景。

另一类方式称为one-stage检测算法,其不需要region proposal阶段,直接产生物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果,因此有着更快的检测速度,比较典型的算法如YOLO,YOLOv2,YOLOv3,SSD,RetinaNet等。

YOLO算法的全拼是You Only Look Once,顾名思义就是只看一次,进一步把目标判定和目标识别两个步骤合二为一,所以识别速度有了很大提升,达到每秒45帧,而在快速版YOLO(Fast YOLO,卷积层更少)中,可以达到每秒155帧,这样就完全能满足实时性要求(达到24帧每秒,人眼就认为是连续的)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值