深度学习课堂总结——2023，04，03

最新推荐文章于 2024-07-19 23:38:36 发布

MortyZhang

最新推荐文章于 2024-07-19 23:38:36 发布

阅读量248

点赞数

文章标签：深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/MortyZhang/article/details/129938358

版权

1 AlexNet

AlexNet网络结构相对简单，使用了8层卷积卷积神经网络，前5层是卷积层，剩下的3层是全连接层，具体如下所示。

我利用AlexNet调用GPU对FashionMinist数据集进行分类，得到的训练结果如下：

2.VGG-16

VGG16是一个由16层组成的深度卷积神经网络，其中包含13个卷积层和3个全连接层。网络的第一层采用64个卷积核进行两次卷积操作，接着进行一次池化操作。第二层采用128个卷积核进行两次卷积操作，再进行一次池化操作。后续的两个块重复了三次卷积操作，每次使用512个卷积核，然后进行一次池化操作。最后，网络通过三个全连接层来完成特征提取任务。网络的所有卷积层均采用相同的卷积核参数，以保持与前一层相同的宽和高。池化层均采用2x2大小的池化核和步长为2的max池化方式，使得每个池化层输出的尺寸为前一层的1/2。此外，为了减少参数数量和计算复杂度，网络采用多个小尺寸卷积核代替一个大尺寸卷积核。例如，两个3x3的卷积核的感受野与一个5x5的卷积核相当。这种策略不仅可以提高网络的深度和性能，还可以加速训练过程。通过在图像识别任务中进行训练，VGG16已经取得了良好的性能。

3 ResNet

残差网络与之前的网络最大的不同在于其增加了一条identity捷径分支。由于该分支的存在，网络在反向传播时，可以通过该路径将损失直接传递到更前的网络，从而减缓网络退化的问题。在第二节分析网络退化的原因时，我们发现梯度之间存在相关性。在考虑梯度相关性这一指标后，我们分析了一系列结构和激活函数，并发现残差网络在保持梯度相关性方面表现出色。从梯度流的角度来看，残差网络中的一部分梯度保持原样向后传递，这部分梯度的相关性非常强。此外，残差网络并未引入额外的参数，只是增加了一个简单的加法操作。在GPU的加速下，这一点额外的计算量可以忽略不计。

4 数据集和评价指标

4.1 算法评估及其相关指标

TP：被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数
FP：被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数
FN：被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数
TN：被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数

精确率P(Precision)：TP/(TP+FP)

召回率R(Recall)：TP/(TP+FN)。召回率越高，准确率越低。

4.2 AP计算

mAP：均值平均准确率。

$AP=\sum_{k=1}^{N} P(k) \Delta r(k)$

其中𝑁代表测试集中所有图片的个数 𝑃(𝑘)表示在能识别出 𝑘个图片的时候Precision 的值,而 Δ𝑟(𝑘)则表示识别图片个数从 𝑘−1变化到 𝑘时(通过调整阈值)Recall 值的变化情况。

5 目标检测与YOLO

5.1 目标检测问题描述

目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。这实际上是一个分类和回归问题。问题：物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。

数据集输出的形式，一般是一个张量，包含：有无目标，方框中心坐标，方框的高和宽，对应于每种类别的概率。YOLO突出的优点：快。目标检测方法主要包括：二步法和一步法，现在通常采用一步法。

5.2 目标检测基本思想

目标检测是计算机视觉领域的一个重要研究方向。传统的目标检测方法采用滑动窗口策略进行目标识别，但是这种方法存在着计算复杂度高和检测精度低的问题。为了解决这些问题，研究者们提出了一系列改进方案。

其中，两步法（Region Proposal）被广泛应用于目标检测任务中。该方法通过预测图像中目标出现的概率，并对具有高概率的区域进行进一步的分类和定位，以实现目标检测。然而，由于该方法需要对图像中的所有区域进行计算，计算复杂度较高，导致其在实际应用中难以满足实时性要求。

为了进一步提高检测速度和精度，研究者们提出了一步法（You Only Look Once，简称YOLO）的目标检测方法。该方法利用卷积神经网络直接对整个图像进行预测，同时实现了目标的分类和定位，具有较高的检测速度和精度。许多现有的目标检测系统都采用了YOLO方法。

此外，在二步法中，滑动窗口之间存在大量重叠，导致计算冗余和检测速度缓慢。因此，研究者们提出了一种不重叠窗口策略，将图像划分成不相交的区域，以减少冗余计算和提高检测速度。

5.3 YOLO网络结构

下面给出一个基本的网络结构如下：

这是一个基本的YOLO网络结构，网络结构包含24个卷积层和2个全连接层；其中前 20 个卷积层用来做预训练，后面 4 个是随机初始化的卷积层，和 2 个全连接层。YOLO网络需要对于输入的图片进行预处理，比如：YOLO v1输入图片要求为448*448*3，需要把图片改成这样的大小。图片为正方形才能正确缩放，可以对于图片加黑边，变成正方形在进行缩放。