基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

最新推荐文章于 2024-07-19 14:53:23 发布

weixin_34277853

最新推荐文章于 2024-07-19 14:53:23 发布

阅读量5.4k

点赞数 13

文章标签：人工智能数据结构与算法

本文探讨了基于深度学习的目标检测技术发展，从R-CNN到Fast R-CNN再到Faster R-CNN。R-CNN采用选择性搜索获取候选框，通过SVM分类和回归器修正位置；Fast R-CNN通过共享卷积层提高效率，同时整合分类和回归任务；Faster R-CNN引入Region Proposal Network（RPN）进一步提升速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

object detection我的理解，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。object detection要解决的问题就是物体在哪里，是什么这整个流程的问题。然而，这个问题可不是那么容易解决的，物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，更何况物体还可以是多个类别。

object detection技术的演进：
RCNN->SppNET->Fast-RCNN->Faster-RCNN

从图像识别的任务说起
这里有一个图像任务：
既要把图中的物体识别出来，又要用方框框出它的位置。

上面的任务用专业的说法就是：图像识别+定位
图像识别（classification）：
输入：图片
输出：物体的类别
评估方法：准确率

定位（localization）：
输入：图片
输出：方框在图片中的位置（x,y,w,h）
评估方法：检测评价函数 intersection-over-union ( IOU )

卷积神经网络CNN已经帮我们完成了图像识别（判定是猫还是狗）的任务了，我们只需要添加一些额外的功能来完成定位任务即可。

定位的问题的解决思路有哪些？
思路一：看做回归问题
看做回归问题，我们需要预测出（x,y,w,h）四个参数的值，从而得出方框的位置。

步骤1:
　　• 先解决简单问题，搭一个识别图像的神经网络
　　• 在AlexNet VGG GoogleLenet上fine-tuning一下

步骤2:
　　• 在上述神经网络的尾部展开（也就说CNN前面保持不变，我们对CNN的结尾处作出改进：加了两个头：“分类头”和“回归头”）
　　• 成为classification + regression模式

步骤3:
　　• Regression那个部分用欧氏距离损失
　　• 使用SGD训练

步骤4:
　　• 预测阶段把2个头部拼上
　　• 完成不同的功能

这里需要进行两次fine-tuning
第一次在ALexNet上做，第二次将头部改成regression head，前面不变，做一次fine-tuning

Regression的部分加在哪&#

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。