20220525 backbone RCNN---＞Faster RCNN

AI-lala

已于 2023-09-27 10:12:56 修改

阅读量120

点赞数

文章标签： cnn 深度学习人工智能

于 2022-05-25 14:02:25 首次发布

本文链接：https://blog.csdn.net/GAOSHIQI5322688/article/details/124964911

版权

1.AlexNet[18]

AlexNet是由Alex Krizhevsky提出的首个应用于图像分类的深层卷积神经网络，该网络在2012年ILSVRC（ImageNet Large Scale Visual Recognition Competition）图像分类竞赛中以15.3%的top-5测试错误率赢得第一名。AlexNet使用GPU代替CPU进行运算，使得在可接受的时间范围内模型结构能够更加复杂，它的出现证明了深层卷积神经网络在复杂模型下的有效性，使CNN在计算机视觉中流行开来，直接或间接地引发了深度学习的热潮。

图10 AlexNet网络结构图[18]

VGG[19]

VGG是Oxford的Visual Geometry Group的组提出的（大家应该能看出VGG名字的由来了）。VGG相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（5x5，7x7，11x11）。简单来说，在VGG中，使用了2个3x3卷积核来代替5*5卷积核，使用了3个3x3卷积核来代替7x7卷积核，这样做的主要目的是在保证具有相同感知野的条件下，提升了网络的深度，一定程度上提升了神经网络的效果。

VGG和AlexNet都是深度卷积神经网络（CNN）的重要代表，它们在计算机视觉领域都取得了显著的成就。相较于AlexNet，VGG具有一些优点，其中一些包括：

更深的网络结构：VGG网络更深，通常有16或19个卷积层，相对于AlexNet的8个卷积层，这使得VGG具有更强大的特征提取能力。深度的优势在大规模数据集上表现明显，有助于提高识别性能。
卷积核的统一性：VGG采用了非常简单和统一的网络结构，所有卷积层都使用相同大小的3x3卷积核和相同的步幅。这种统一性使得网络更容易理解和实现，并且减少了参数的数量。
更小的卷积核：相对于AlexNet的较大卷积核，VGG使用了小尺寸的卷积核，通常是3x3。这有助于减少参数数量，并且在保持特征表示能力的同时减少了计算负担。
无局部响应归一化（LRN）：与AlexNet不同，VGG没有使用LRN层。这减少了网络结构的复杂性，同时在训练和推理中没有增加额外的计算成本。
更好的泛化能力：由于深度和统一性，VGG通常具有更好的泛化能力，能够在各种图像分类任务中表现良好。

尽管VGG在某些方面具有优点，但它也有一些缺点，例如更多的参数和计算需求。选择使用哪个架构通常取决于具体的任务、数据集大小和计算资源。然而，VGG的简单而统一的结构为后续深度学习模型的发展提供了重要启发，并且为深度学习的研究和应用作出了重要贡献。

mobilenet

理解MobileNetV1 - 知乎

1、RCNN (region CNN)。物体检测领域开山之作。CNN网络

1>候选区域生成

使用selective search传统方式，先将图片分割，合并包含同一物体可能性高的区域，进行归一化，得到固定大小的图像。

2>cnn特征提取

特征图卷机

3> svm分类器。

线性二分类器进行分类，难样本挖掘来平衡正负样本的不平衡。

困难样本挖掘(Online Hard Sample Mining)_AI视觉网奇的博客-CSDN博客_困难样本挖掘

4>位置精修
回归器回归目标区域

2、Fast RCNN 端到端、基于VGG16、速度快
改进：
1>共享卷机

将整个图放进卷机网络，还是用selective search 方式，但是计算量减少。
2>Roi Pooling

特征池化，任意尺度变换，任意大小图片输入。
3>多任务损失
分类与回归放在一起训练，使用softmax函数分类
3、faster rcnn. 提出rpn提取候选框网络，利用anchor

功能：

1>特征提取网络

vggnet

2>RPN

1>>anchor生成
特征图每个点对应9个anchor,对应到原图基本可以覆盖所有物体
2>>RPN卷机网络
使用1*1卷机在特征图得到每个anchor的预测得分和预测偏移值
3>>RPN loss
只在训练过程中，将所有anchors和标签匹配，匹配好的anchors为正样本，相反为负样本，得到分类和偏移量真值，和第二部中的预测得分、偏移值做loss计算
4>>生成proposal
利用损失计算后第二部预测的值，筛选较好的proposal，送入网络
5>>筛选ROI (感兴趣区域)
3> ROI Pooling
承上启下，接受特征图和ROI，输出送到RCNN.因为ROI特征大小不同，维度不同，无法送到全连接网络，所以使用特征池化，固定维度。

4>RCNN
1>>将roi接到全连接网络，输入rcnn的预测得分和预测偏移量
2>>计算rcnn真值
3>>Rcnn 损失
分类与回归输入维度21和84

Fasterrcnn 是一个两阶算法，即RPN\RCNN ，都需要计算损失，前者需要给后者提供感兴趣区域。

RPN输出anchor是预测值， anchor 与标签的iou\偏移量为真值。

RPN损失计算：

预测值和真值，计算损失。包含分类和回归。

分类：只需区分背景、前景，二分类，交叉熵损失。传入得分。
回归：偏移量和真值较大，使用1阶损失函数，容易收敛。

nms:
在RPN第四步，会得到一万多得分高的anchors ，但会有多个重叠的anchors,用nms将重叠框去掉(只是去掉重叠框)，再根据得分选前2000个作为最终proposal

筛选proposal得到roi：
利用proposal和标签的iou计算，选出256个roi.

4、ssd和yolo区别

ssd与YOLO的不同 - 知乎 (zhihu.com)

AI-lala

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
20220525 backbone RCNN---＞Faster RCNN

使用selective search传统方式，先将图片分割，合并包含同一物体可能性高的区域，进行归一化，得到固定大小的图像。2>cnn特征提取特征图卷机3> svm分类器。4>位置精修...
复制链接

扫一扫