神经网络与深度学习周总结（三）

Gang_Plank

已于 2023-04-03 15:57:18 修改

阅读量248

点赞数

文章标签： python

于 2023-04-03 15:53:38 首次发布

本文链接：https://blog.csdn.net/Gang_Plank/article/details/129931118

版权

1.基本卷积神经网络

1.1 AlexNet

AlexNet网络结构相对简单，使用了8层卷积卷积神经网络，前5层是卷积层，剩下的3层是全连接层，具体如下所示

但局限性限制了其训练速度，需要进行一定程度的改进。采用修正线性单元(ReLU)的深度卷积神经网络训练时间比等价的tanh单元要快几倍。而时间开销是进行模型训练过程中很重要的考量因素之一。同时，ReLU有效防止了过拟合现象的出现。由于ReLU激活函数的高效性与实用性，使得它在深度学习框架中占有重要地位。

Dropout操作会将概率小于0.5的每个隐层神经元的输出设为0，即去掉了一些神经节点，达到防止过拟合。那些“失活的”神经元不再进行前向传播并且不参与反向传播。这个技术减少了复杂的神经元之间的相互影响。相关情况如下所示。

1.2 VGG-16

vgg16总共有16层，13个卷积层和3个全连接层，第一次经过64个卷积核的两次卷积后，采用一次pooling，第二次经过两次128个卷积核卷积后，再采用pooling，再重复两次三个512个卷积核卷积后，再pooling，最后经过三次全连接。

其网络结构如下所示。卷积层均采用相同的卷积核参数，这样就能够使得每一个卷积层（张量）与前一层（张量）保持相同的宽和高；池化层均采用相同的池化核参数，池化层采用尺寸为2X2，stride=2，max的池化方式，使得池化后的层尺寸长宽为未池化前的1/2；利用小尺寸卷积核等效大尺寸卷积核，2个3X3卷积核的感受野与1个5X5卷积核相当，3个3X3卷积核与1个7X7卷积核相当，故在特征提取效果相当时，多个小卷核与大卷积核相比，学习参数更少，计算量较小，训练更加快速，还能增加网络的深度，提升模型性能。

对于该网络的改进，网络规模进一步增大，参数数量约为1.38亿。由于各卷积层、池化层的超参数基本相同，整体结构呈现出规整的特点。

1.3 残差网络

残差网络和之前的网络最大的不,同就是多了一条identity的捷径分支。而因为这一条分支的存在，使得网络在反向传播时，损失可以通过这条捷径将梯度直接传向更前的网络，从而减缓了网络退化的问题。在第二节分析网络退化的原因时，我们了解到梯度之间是有相关性的。我们在有了梯度相关性这个指标之后，作者分析了一系列的结构和激活函数，发现resnet在保持梯度相关性方面很优秀，从梯度流来看，有一路梯度是保持原样不动地往回传，这部分的相关性是非常强的。除此之外，残差网络并没有增加新的参数，只是多了一步加法。而在GPU的加速下，这一点额外的计算量几乎可以忽略不计。

由上图可以看出，56-layer(层)的网络比20-layer的网络在训练集和测试集上的表现都要差，说明如果只是简单的增加网络深度，可能会使神经网络模型退化，进而丢失网络前面获取的特征。

残差网络可以表示为如下所示。普通网络的基准模型受VGG网络的启发，卷积层主要有3×3的过滤器，并遵循两个简单的设计规则:①对输出特征图的尺寸相同的各层，都有相同数量的过滤器; ②如果特征图的大小减半，那么过滤器的数量就增加一倍，以保证每一层的时间复杂度相同。

1.4 常用数据集

MNIST，PASCAL VOC，MS COCO，ImageNet

2.深度学习视觉应用

2.1 评价指标

相关概念
TP: 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数

FP: 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数

FN:被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数

TN: 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例

P(精确率）： TP/（TP+FP）

R(召回率）： TP/(TP+FN)。召回率越高，准确度越低

精确率与召回率之间没有精确的关系，在实际例子中需要选择合适的阈值调整置信度与准确率的变化。

mAP:均值平均准确率：

其中𝑁代表测试集中所有图片的个数,P(k)表示在能识别出k个图片的时候Precision的值，而Δ r ( k ) \Delta r(k)Δr(k)则表示识别图片个数从k-1变化到k时（通过调整阈值）Recall值的变化情况。每一个类别均可确定对应的AP。多类的检测中，取每个类AP的平均值，即为mAP。

2.2 目标检测与YOLO

目标检测问题
目标检测问题：目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。
目标检测问题的发展：R-CNN;SPP NET;Fast R-CNN;Faster R-CNN;最终实现为YOLO。
分类问题数据集输出表达：

解决方案发展史：

yolo家族发展史

滑动窗口法和一步法
简单来说，就是设定一个框，在图片上移动，看框里有没有自己想要的目标，最终寻觅到目标的过程。听起来方法很简单，但实际应用中会出现各种问题：
假如我们要寻找的目标大小相对于图片来说比较小，那么我们为了精确捕捉到这个目标，需要设置一个和目标大小类似的捕捉框，那么就会造成一个问题，滑动范围过大，我们的寻找目标时间过长。由于图片中大多数位置都不存在目标，所以为了进一步减少目标的位置，将分类检测和定位问题合在一个网络里（YOLO）。那么如何将分类问题扩展为回归+分类的问题：需要将每个框的具体信息列出，对于一个窗口来说，我们需要得到位置信息（x，y）、大小信息(w,h)，以及该框出现目标的概率C ，如对于一个寻找葫芦娃脸的图片我们可以将一幅图片根据窗口转化为五个维度的信息示意图：

YOLO网络结构

网络输入
YOLO v1在PASCAL VOC数据集上进行的训练，因此输入图片为448 × 448 × 3。实际中如为其它尺寸，需要resize或切割成要求尺寸。
模型处理：7x7网络划分
1.将图片分割为s^2 个grid(S=7)，每个grid cell的大小都是相等的
2.每个格子都可以检测是否包含目标
3.YOLO v1中，每个格子只能检测一种物体（但可以不同大小）。
网络输出
1.输出是一个7 × 7 × 30的张量。对应7 × 7个cell
2.每个cell对应2个包围框(bounding box, bb)，预测不同大小和宽高比，对应检测不同目标。每个bb有5个分量，分别是物体的中心位置(x,y)和它的高 (h)和宽 (w) ，以及这次预测的置信度。