RCNN,SSD, YOLO的优缺点比较及反思

1. RCNN

rcnn对于原有的目标检测算法提升50% 在VGG-16网络模型下,voc2007数据集上准确率为66%,但是速度很慢,内存占用量大,主要原因为候选框由速度较慢的selective search算法完成以及重复卷积网络计算。

Fast-RCNN

  1. 加入ROI池化 :提出ROI pooling池化层结构,解决了候选框子图将图像裁剪缩放到相同尺寸大小时产生坐标偏移的问题;fast R-CNN在全连接层之前插入了ROI pooling层,从而不需要对图像进行裁剪,很好的解决了这个问题。
  2. 多任务损失函数:将分类损失和边框定位回归损失结合在一起统一训练,最终输出对应分类和边框坐标。
  3. Fast-RCNN = RCNN + SPPNET - Crop

Faster-RCNN

Faster-RCNN基本结构

  1. 加入RPN网络 :region proposal networks RPN层用于生成候选框,并利用softmax判断候选框是前景还是背景,从中选取前景候选框(因为物体一般在前景中),并利用bounding box regression调整候选框的位置,从而得到特征子图,称为proposals。
  2. 分类层:利用ROI层输出的特征图proposal,判断proposal的类别,同时再次对bounding box进行regression从而得到精确的形状和位置。
  3. 交替训练: 交替训练SPPNET和RPN网络(一次通过RPN网络一次通过SPPNET计算损失),测试集上先通过RPN进行分类再使用SPPNET进行最后的分类和回归
  4. Anchor框: 在高级特征上取k个Anchor框。anchor有[x,y,w,h]四个坐标偏移量,x,y表示中心点坐标,w和h表示宽度和高度。这样,对于feature map上的每个点,就得到了k个大小形状各不相同的选区region。
  5. Anchor框的计算: 先使用softmax确定是前景还是背景进行筛选,再进行bounding box回归。
    在这里插入图片描述
    假设红色框的坐标为[x,y,w,h], 绿色框,也就是目标框的坐标为[Gx, Gy,Gw,Gh], 我们要建立一个变换,使得[x,y,w,h]能够变为[Gx, Gy,Gw,Gh]。最简单的思路是,先做平移,使得中心点接近,然后进行缩放,使得w和h接近。如下
    在这里插入图片描述
    学习dx dy dw dh这四个线性变换,可以用线性回归来建模。对于空间位置loss,我们一般采用均方差算法并可以使用自适应梯度下降算法Adam优化方法。
  6. Faster-RCNN = Fast-RCNN + RPN - SS

Faster-RCNN 系列的反思

使用金字塔模型可以解决RCNN裁剪尺度变化的问题,对感兴趣区域进行分类提高了候选框采集的速度。对小物体有更好对检测效果。

2. YOLO

you only look once:one-stage的目标检测算法,将物体的定位和分类在一起完成,在一个输出层回归bounding box的位置和bounding box所属类别。在一块泰坦显卡上,FPS达到了45,实现了实时(Realtime)检测。在这里插入图片描述

YOLO V1

在这里插入图片描述

  1. 图像分割 :将图像隐式的分割为S X S个网格,当物体中心落在哪个网格里哪个网格就负责预测
  2. 计算量小:张量大小只有 S x S x (B*5 + C)。
  3. 训练集和测试集图片大小不一致 训练图片大小为224x224,测试图片为448x448

YOLO V2

  1. 批标准化 :加入BN层
  2. 加入448 x 448图片:在训练过程中加入和测试图像一样大的448 x 448 size的图像
  3. 引用Anchor Boxes 提升了recall值但是小幅降低了mAP(更稳定)。

YOLO V3

  • YOLO V3 网络结构

在这里插入图片描述

  1. 3个Anchor框 :52x52 小 26 x26 中 13 x 13 大
  2. 加入448 x 448图片:在训练过程中加入和测试图像一样大的448 x 448 size的图像
  3. 引用Anchor Boxes :提升了recall值但是小幅降低了mAP(更稳定)。
  4. 加入NMS筛选

YOLO系列的反思

    丧失部分精度,将图片端到端的进行目标检测,也引入了rcnn的Anchor框体系大幅提升mAP。因为没有进行区域采样,所以对全局信息有较好的表现,但是在小范围的信息上表现较差。

3. SSD

     Single Shot MultiBox Detector,平衡了YOLO和Faster RCNN的优缺点的模型。Faster R-CNN准确率mAP较高,漏检率recall较低,但速度较慢。而yolo则相反,速度快,但准确率和漏检率较低。

在这里插入图片描述

  1. 密集采样 :在6个特征图上进行4-6个bounding box框采样(论文上写的是default boxes 但是是和其他论文里对bounding box一样)
  2. 多尺寸feature map:每一个卷积层,都会输出不同大小感受野的feature map。在这些不同尺度的feature map上,进行目标位置和类别的训练和预测,从而达到多尺度检测的目的,可以克服yolo对于宽高比不常见的物体,识别准确率较低的问题。而yolo中,只在最后一个卷积层上做目标位置和类别的训练和预测。这是SSD相对于yolo能提高准确率的一个关键所在。
  3. 多anchor框 :每个anchor对应4-6个位置参数和C个类别参数.
  4. 加入NMS筛选

SSD反思

     SSD相比SPPNET可以实现参数共享即在多个feature map上使用单一网络。SSD的Anchor框大小是计算出来的,相比Faster RCNN的固定anchor框更加科学。下图为不同feature map上Anchor框的比率。 低级feature map使用小anchor框获取细节信息,高级feature map上使用大anchor框获取全局信息。
在这里插入图片描述
参考资料:
[1]: https://www.cnblogs.com/carsonzhu/p/9547973.html

### 回答1: Faster RCNNYOLO优缺点如下: Faster RCNN: 优点: 1. 准确性高:由于使用了RPN(区域提议网络)来生成候选区域,再通过RoI(感兴趣区域)池化来提取特征,因此Faster RCNN的准确性比较高。 2. 处理速度快:使用预训练的卷积神经网络(如VGG16、ResNet等)加速了训练和测试过程。 缺点: 1. 时间复杂度高:Faster RCNN的算法流程比较复杂,训练和推理时间比较长。 2. 实际应用困难:Faster RCNN的实际应用不够方便,需要一定的研究门槛。 YOLO: 优点: 1. 速度快:YOLO使用单个卷积网络,在实际应用中速度比较快。 2. 易于实际应用:YOLO简洁易懂,实际应用比较方便。 缺点: 1. 准确性较低:YOLO的准确性不如Faster RCNN,特别是在处理小物体时。 2. 无法识别复杂的场景:YOLO的单一卷积网络模型不能很好地处理复杂的场景。 ### 回答2: Faster R-CNN和YOLO是目标检测领域中常用的两种深度学习模型,它们分别采用了不同的架构和方法。 首先,Faster R-CNN是一种基于区域提议的目标检测模型,其优点包括:1)准确性较高,Faster R-CNN采用了两阶段的检测框架,首先使用Region Proposal Network(RPN)生成候选区域,然后再用分类器和回归器对候选区域进行分类和精细定位,有效提高了目标检测的准确率;2)鲁棒性较好,RPN能够检测不同大小、比例的目标,且在目标遮挡或视角变化情况下仍能保持较高的检测准确率;3)泛化能力强,Faster R-CNN可适用于多样化的目标检测任务。 缺点方面,Faster R-CNN也存在一些问题,例如:1)速度较慢,RPN生成候选区域的速度较慢,导致模型检测速度较慢;2)训练困难,需要训练两个网络,且需要大量标注数据;3)对小目标检测不敏感,RPN生成的候选区域通常较大,在小目标检测时容易漏检。 其次,YOLO是一种基于单个神经网络的目标检测模型,其优点包括:1)速度较快,YOLO将目标检测与区域生成合并到一个网络中,检测速度较快,适用于实时目标检测场景;2)对小目标、密集目标检测敏感,YOLO使用网格单元化方法,对密集小目标检测敏感;3)训练简单,YOLO不需要生成候选区域,只需要标注目标和背景,少量标注数据即可训练。 缺点方面,YOLO也存在一些问题,例如:1)准确率相对较低,依赖于单一尺度上的特征,对复杂场景的目标检测有一定的局限性;2)抗遮挡性较弱,对目标遮挡较多的情况下容易漏检;3)对目标比例不敏感,难以检测大小不一的目标。 综上所述,Faster R-CNN和YOLO各有优缺点,可根据具体应用场景进行选择。如果要求检测准确性较高,可以选择Faster R-CNN;如果要求实时检测,并且对于小目标、密集目标要求较高,可以选择YOLO。 ### 回答3: Faster R-CNN和YOLO都是目标检测领域中常见的算法,两种算法各有优缺点。 首先,Faster R-CNN是基于深度学习的目标检测算法,其主要优点在于精度高。Faster R-CNN利用了Region Proposal Network (RPN)来生成候选区域,再使用RoI Pooling和全连接层对候选区域进行裁剪和分类。Faster R-CNN采用了两个网络结构,一个是RPN,用于生成候选区域;另一个是Fast R-CNN,用于分类和检测。由于使用两个网络,Faster R-CNN具有更好的精度,同时也适用于目标尺寸不同的图像。 其次,YOLO(You Only Look Once)是一种基于单个神经网络的目标检测算法,其主要优点在于速度快。YOLO将整个图像分成S × S个网格,每个网格预测B个边界框和类别概率。与Faster R-CNN不同的是,YOLO只需要一次前向传递就可以同时完成边界框定位和类别识别任务,因此速度更快。此外,YOLO还可以实时处理视频流。 但是,两种算法也存在各自的缺点。Faster R-CNN虽然精度高,但速度较慢,处理大量图像时效率较低。而YOLO处理目标较小的图像时性能差,面对类别数量较多的问题时可能发生识别混淆。此外,YOLO对于物体尺寸变化较大,比如近距离拍摄和远距离拍摄同一个物体,容易发生尺度不变性问题,会导致物体的检测效果不够精确。 总之,Faster R-CNN和YOLO各有长处和短处,在应用到不同场景下时需要根据具体情况进行选择,以达到最好的检测效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值