20220525 backbone RCNN--->Faster RCNN

1.AlexNet[18]

AlexNet是由Alex Krizhevsky提出的首个应用于图像分类的深层卷积神经网络,该网络在2012年ILSVRC(ImageNet Large Scale Visual Recognition Competition)图像分类竞赛中以15.3%的top-5测试错误率赢得第一名。AlexNet使用GPU代替CPU进行运算,使得在可接受的时间范围内模型结构能够更加复杂,它的出现证明了深层卷积神经网络在复杂模型下的有效性,使CNN在计算机视觉中流行开来,直接或间接地引发了深度学习的热潮。

图10 AlexNet网络结构图[18]

  • VGG[19]

VGG是Oxford的Visual Geometry Group的组提出的(大家应该能看出VGG名字的由来了)。VGG相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(5x5,7x7,11x11)。简单来说,在VGG中,使用了2个3x3卷积核来代替5*5卷积核,使用了3个3x3卷积核来代替7x7卷积核,这样做的主要目的是在保证具有相同感知野的条件下,提升了网络的深度,一定程度上提升了神经网络的效果。

VGG和AlexNet都是深度卷积神经网络(CNN)的重要代表,它们在计算机视觉领域都取得了显著的成就。相较于AlexNet,VGG具有一些优点,其中一些包括:

  1. 更深的网络结构:VGG网络更深,通常有16或19个卷积层,相对于AlexNet的8个卷积层,这使得VGG具有更强大的特征提取能力。深度的优势在大规模数据集上表现明显,有助于提高识别性能。

  2. 卷积核的统一性:VGG采用了非常简单和统一的网络结构,所有卷积层都使用相同大小的3x3卷积核和相同的步幅。这种统一性使得网络更容易理解和实现,并且减少了参数的数量。

  3. 更小的卷积核:相对于AlexNet的较大卷积核,VGG使用了小尺寸的卷积核,通常是3x3。这有助于减少参数数量,并且在保持特征表示能力的同时减少了计算负担。

  4. 无局部响应归一化(LRN):与AlexNet不同,VGG没有使用LRN层。这减少了网络结构的复杂性,同时在训练和推理中没有增加额外的计算成本。

  5. 更好的泛化能力:由于深度和统一性,VGG通常具有更好的泛化能力,能够在各种图像分类任务中表现良好。

尽管VGG在某些方面具有优点,但它也有一些缺点,例如更多的参数和计算需求。选择使用哪个架构通常取决于具体的任务、数据集大小和计算资源。然而,VGG的简单而统一的结构为后续深度学习模型的发展提供了重要启发,并且为深度学习的研究和应用作出了重要贡献。

mobilenet 

理解MobileNetV1 - 知乎

1、RCNN (region CNN)。 物体检测领域开山之作。CNN网络

1>候选区域生成

使用selective search传统方式,先将图片分割,合并包含同一物体可能性高的区域,进行归一化,得到固定大小的图像。

2>cnn特征提取

特征图卷机

3> svm分类器。

线性二分类器进行分类,难样本挖掘来平衡正负样本的不平衡。

困难样本挖掘(Online Hard Sample Mining)_AI视觉网奇的博客-CSDN博客_困难样本挖掘

4>位置精修
回归器回归目标区域

2、Fast RCNN     端到端、基于VGG16、速度快
改进:
    1>共享卷机

    将整个图放进卷机网络,还是用selective search 方式,但是计算量减少。
    2>Roi Pooling

    特征池化,任意尺度变换,任意大小图片输入。
    3>多任务损失
       分类与回归放在一起训练,使用softmax函数分类
3、faster rcnn.    提出rpn提取候选框网络,利用anchor

   功能:

   1>特征提取网络

vggnet

2>RPN

   1>>anchor生成
       特征图每个点对应9个anchor,对应到原图基本可以覆盖所有物体
   2>>RPN卷机网络
       使用1*1卷机在特征图得到每个anchor的预测得分和预测偏移值
   3>>RPN loss
      只在训练过程中,将所有anchors和标签匹配,匹配好的anchors为正样本,相反为负样本,得到分类和偏移量真值,和第二部中的预测得分、偏移值做loss计算
    4>>生成proposal
       利用损失计算后第二部预测的值,筛选较好的proposal,送入网络
    5>>筛选ROI (感兴趣区域) 
3> ROI Pooling
   承上启下,接受特征图和ROI,输出送到RCNN.因为ROI特征大小不同,维度不同,无法送到全连接网络,所以使用特征池化,固定维度。

4>RCNN 
  1>>将roi接到全连接网络,输入rcnn的预测得分和预测偏移量
   2>>计算rcnn真值
  3>>Rcnn 损失  
分类与回归输入维度21和84
 

Fasterrcnn 是一个两阶算法,即RPN\RCNN ,都需要计算损失,前者需要给后者提供感兴趣区域。

RPN输出anchor是预测值, anchor 与标签的iou\偏移量 为真值。

RPN损失计算:

预测值和真值,计算损失。包含分类和回归。

分类:只需区分背景、前景,二分类,交叉熵损失。 传入得分。
回归:偏移量和真值较大,使用1阶损失函数,容易收敛。

nms:
  在RPN第四步,会得到一万多得分高的anchors  ,但会有多个重叠的anchors,用nms将重叠框去掉(只是去掉重叠框),再根据得分选前2000个作为最终proposal
 

筛选proposal得到roi:
利用proposal和标签的iou计算,选出256个roi.

4、ssd和yolo区别

ssd与YOLO的不同 - 知乎 (zhihu.com)

   
       
       
       
       

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值