1.AlexNet[18]
AlexNet是由Alex Krizhevsky提出的首个应用于图像分类的深层卷积神经网络,该网络在2012年ILSVRC(ImageNet Large Scale Visual Recognition Competition)图像分类竞赛中以15.3%的top-5测试错误率赢得第一名。AlexNet使用GPU代替CPU进行运算,使得在可接受的时间范围内模型结构能够更加复杂,它的出现证明了深层卷积神经网络在复杂模型下的有效性,使CNN在计算机视觉中流行开来,直接或间接地引发了深度学习的热潮。
图10 AlexNet网络结构图[18]
- VGG[19]
VGG是Oxford的Visual Geometry Group的组提出的(大家应该能看出VGG名字的由来了)。VGG相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(5x5,7x7,11x11)。简单来说,在VGG中,使用了2个3x3卷积核来代替5*5卷积核,使用了3个3x3卷积核来代替7x7卷积核,这样做的主要目的是在保证具有相同感知野的条件下,提升了网络的深度,一定程度上提升了神经网络的效果。
VGG和AlexNet都是深度卷积神经网络(CNN)的重要代表,它们在计算机视觉领域都取得了显著的成就。相较于AlexNet,VGG具有一些优点,其中一些包括:
-
更深的网络结构:VGG网络更深,通常有16或19个卷积层,相对于AlexNet的8个卷积层,这使得VGG具有更强大的特征提取能力。深度的优势在大规模数据集上表现明显,有助于提高识别性能。
-
卷积核的统一性:VGG采用了非常简单和统一的网络结构,所有卷积层都使用相同大小的3x3卷积核和相同的步幅。这种统一性使得网络更容易理解和实现,并且减少了参数的数量。
-
更小的卷积核:相对于AlexNet的较大卷积核,VGG使用了小尺寸的卷积核,通常是3x3。这有助于减少参数数量,并且在保持特征表示能力的同时减少了计算负担。
-
无局部响应归一化(LRN):与AlexNet不同,VGG没有使用LRN层。这减少了网络结构的复杂性,同时在训练和推理中没有增加额外的计算成本。
-
更好的泛化能力:由于深度和统一性,VGG通常具有更好的泛化能力,能够在各种图像分类任务中表现良好。
尽管VGG在某些方面具有优点,但它也有一些缺点,例如更多的参数和计算需求。选择使用哪个架构通常取决于具体的任务、数据集大小和计算资源。然而,VGG的简单而统一的结构为后续深度学习模型的发展提供了重要启发,并且为深度学习的研究和应用作出了重要贡献。
mobilenet
1、RCNN (region CNN)。 物体检测领域开山之作。CNN网络
1>候选区域生成
使用selective search传统方式,先将图片分割,合并包含同一物体可能性高的区域,进行归一化,得到固定大小的图像。
2>cnn特征提取
特征图卷机
3> svm分类器。
线性二分类器进行分类,难样本挖掘来平衡正负样本的不平衡。
困难样本挖掘(Online Hard Sample Mining)_AI视觉网奇的博客-CSDN博客_困难样本挖掘
4>位置精修
回归器回归目标区域
2、Fast RCNN 端到端、基于VGG16、速度快
改进:
1>共享卷机
将整个图放进卷机网络,还是用selective search 方式,但是计算量减少。
2>Roi Pooling
特征池化,任意尺度变换,任意大小图片输入。
3>多任务损失
分类与回归放在一起训练,使用softmax函数分类
3、faster rcnn. 提出rpn提取候选框网络,利用anchor
功能:
1>特征提取网络
vggnet
2>RPN
1>>anchor生成
特征图每个点对应9个anchor,对应到原图基本可以覆盖所有物体
2>>RPN卷机网络
使用1*1卷机在特征图得到每个anchor的预测得分和预测偏移值
3>>RPN loss
只在训练过程中,将所有anchors和标签匹配,匹配好的anchors为正样本,相反为负样本,得到分类和偏移量真值,和第二部中的预测得分、偏移值做loss计算
4>>生成proposal
利用损失计算后第二部预测的值,筛选较好的proposal,送入网络
5>>筛选ROI (感兴趣区域)
3> ROI Pooling
承上启下,接受特征图和ROI,输出送到RCNN.因为ROI特征大小不同,维度不同,无法送到全连接网络,所以使用特征池化,固定维度。
4>RCNN
1>>将roi接到全连接网络,输入rcnn的预测得分和预测偏移量
2>>计算rcnn真值
3>>Rcnn 损失
分类与回归输入维度21和84
Fasterrcnn 是一个两阶算法,即RPN\RCNN ,都需要计算损失,前者需要给后者提供感兴趣区域。
RPN输出anchor是预测值, anchor 与标签的iou\偏移量 为真值。
RPN损失计算:
预测值和真值,计算损失。包含分类和回归。
分类:只需区分背景、前景,二分类,交叉熵损失。 传入得分。
回归:偏移量和真值较大,使用1阶损失函数,容易收敛。
nms:
在RPN第四步,会得到一万多得分高的anchors ,但会有多个重叠的anchors,用nms将重叠框去掉(只是去掉重叠框),再根据得分选前2000个作为最终proposal
筛选proposal得到roi:
利用proposal和标签的iou计算,选出256个roi.
4、ssd和yolo区别