大话目标检测经典模型（RCNN、Fast RCNN、Faster RCNN）

最新推荐文章于 2025-03-01 13:31:49 发布

雪饼ai

最新推荐文章于 2025-03-01 13:31:49 发布

阅读量6.8k

点赞数 4

分类专栏：人工智能文章标签：深度学习目标检测 RCNN Fast RCNN Faster RCNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rogerchen1983/article/details/79769235

版权

本文详细介绍了目标检测的重要性和复杂性，从最初的分类与定位问题，到R-CNN、Fast R-CNN和Faster R-CNN的发展，阐述了深度学习在目标检测领域的演进，特别是如何通过ROI Pooling和RPN提高速度和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标检测是深度学习的一个重要应用，就是在图片中要将里面的物体识别出来，并标出物体的位置，一般需要经过两个步骤：
1、分类，识别物体是什么

2、定位，找出物体在哪里

除了对单个物体进行检测，还要能支持对多个物体进行检测，如下图所示：

这个问题并不是那么容易解决，由于物体的尺寸变化范围很大、摆放角度多变、姿态不定，而且物体有很多种类别，可以在图片中出现多种物体、出现在任意位置。因此，目标检测是一个比较复杂的问题。
最直接的方法便是构建一个深度神经网络，将图像和标注位置作为样本输入，然后经过CNN网络，再通过一个分类头（Classification head）的全连接层识别是什么物体，通过一个回归头（Regression head）的全连接层回归计算位置，如下图所示：

但“回归”不好做，计算量太大、收敛时间太长，应该想办法转为“分类”，这时容易想到套框的思路，即取不同大小的“框”，让框出现在不同的位置，计算出这个框的得分，然后取得分最高的那个框作为预测结果，如下图所示：

根据上面比较出来的得分高低，选择了右下角的黑框作为目标位置的预测。

但问题是：框要取多大才合适？太小，物体识别不完整；太大，识别结果多了很多其它信息。那怎么办？那就各种大小的框都取来计算吧。

如下图所示（要识别一只熊），用各种大小的框在图片中进行反复截取，输入到CNN中识别计算得分，最终确定出目标类别和位置。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。