深度学习 I（Deep Learning I）

XiaoLinzzz

已于 2023-08-27 13:14:36 修改

阅读量80

点赞数

分类专栏：计算机视觉文章标签：深度学习人工智能

于 2023-08-27 12:37:15 首次发布

本文链接：https://blog.csdn.net/2301_77255300/article/details/132460913

版权

计算机视觉专栏收录该内容

8 篇文章 0 订阅

订阅专栏

分类的基本架构

AlexNet

请添加图片描述

创新

ReLU（修正线性单元）激活函数 – 训练更快
在 GPU 上训练 – 并行化使训练更快（实际上当时需要2个GPU！）
重叠的最大池化区域，ReLU后的响应归一化 – 略微提高准确性
数据增强 – 减少过拟合
Dropout – 减少过拟合

VGG

请添加图片描述

VGG 通过堆叠多个3 x 3的卷积核来有效地创建更大的卷积核：

两个3 x 3的卷积层 = 有效的感受野为5 x 5
三个3 x 3的卷积层 = 有效的感受野为7 x 7

创新

堆叠的3x3卷积层

由于额外的非线性，可以学习更复杂的特征
相比具有相同感受野的1层，参数更少

不使用 AlexNet 的响应归一化（normalisation） – 训练速度更快，但准确率下降很小。

GoogLeNet

请添加图片描述

Auxillary classifers: 辅助分类器

Inception module

在卷积神经网络（CNNs）中选择合适的卷积核大小是很困难的，因为在图像中的物体或特征可能出现在任何尺度上。

为了解决这个问题，Inception模块被提出。它的核心思想是同时使用多种不同的卷积核大小，并将得到的结果连接在一起。

请添加图片描述

Inception 模块

Inception模块的主要特点如下：

并行使用多种不同的卷积核大小（例如，1x1、3x3、5x5）进行卷积操作。
将这些卷积的输出沿深度维度连接在一起。
然后将这个连接的输出传递给下一层或模块。

除了多种卷积核大小，Inception模块还可能包括一个作为其并行路径的最大池化操作。池化操作有助于捕获空间不变性并减少空间维度。

Inception模块的结构允许它自动学习在输入数据中捕获特征的最合适的尺度，无需手动调整。

辅助分类器

只在训练过程中使用 —— 根据早期层次的表示对图像进行分类并更新参数
帮助解决梯度消失问题。

ResNet

背景

更深的神经网络是否可以保证更好的性能？

梯度消失和梯度爆炸: 在训练过程中，深层网络可能会遇到梯度消失和梯度爆炸的问题，这可能会妨碍学习过程。
并不总是必要的: 根据数据和任务的复杂性，较浅的网络可能就足够了，甚至可能比更深的网络表现得更好。

性能先是达到饱和，然后逐渐下降。这不是因为过拟合, 在训练集上的性能甚至更差。

请添加图片描述

理论上，深度网络应该能够学习到一组参数，使其能够像小型网络那样运作。

例如，某些卷积层可能会学习到恒等核（identity kernels），而其他层可能会学习到浅层网络的核。

然而，深层卷积神经网络（CNNs）似乎不能学习到这种解决方案，至少在合理的训练时间内是这样。这也意味着简单地增加网络的深度并不总是一个好的策略，因为它可能并不总是能够带来更好的性能。

短路连接（Shortcut connections）

增加短路连接，可以跳过一些层（layers）。
请添加图片描述

残差学习（Residual learning）

传统网络
- 输入： $x$
- 输出： $H (x)$
- 描述: 传统网络直接学习了输入 $x$ 的特征表示。
残差网络
- 输入： $x$
- 输出： $H (x) - x$
- 描述：残差网络并不直接学习 $x$ 的特征表示。相反，它学习了输入 $x$ 与其特征表示之间的差异或"残差"，然后将这个差异加回到原始输入 $x$ 上，从而得到 $H (x)$ 。

优势：
残差网络通过学习差异（或残差）使得网络更容易学习恒等映射（identity mapping），这在传统网络中可能较难实现。恒等映射意味着输入可以直接传递到输出，而无需任何改变，这在深层网络中是非常有益的，因为它可以帮助防止梯度消失和爆炸。

请添加图片描述

残差块 (Residual block)

通过使网络更容易学习身份映射来简化学习问题。
允许更深的网络提高准确性。

请添加图片描述

MobileNet

轻量级移动应用架构

可分离滤波器 (Separable filters)：

记住，使用2D滤波器进行滤波等同于使用两个正交的1D滤波器进行滤波。
同样地，使用3D滤波器进行滤波等同于使用一个2D滤波器和一个正交的1D滤波器进行滤波。
MobileNets 使用深度可分离滤波器（depthwise-separable filters）－在x,y方向上的2D滤波器和在通道上的1D滤波器。

这里的主要概念是，通过使用可分离的滤波器，可以减少计算的复杂性和资源消耗。特别是在移动设备上，这种方法可以提高效率和性能。MobileNets就是一个利用此技术的深度学习模型，特别为移动设备设计。

请添加图片描述

创新点

深度可分离卷积 (Depthwise separable convolution)：

更少的参数和更少的计算。
限制模型可以学习的卷积核 - 并非所有的卷积核都是可分离的。
比其他架构更小、更快。
准确性低于VGG、ResNet等。
但更适合实时应用和手机。

深度可分离卷积是一种优化技术，旨在减少神经网络中的计算量和参数数量。虽然这种方法可能导致一些准确性的损失，但它提供了更高的计算效率和速度，特别适合资源有限的设备，如手机，或需要实时处理的应用。

分类（Classification）

ImageNet 分类（像素 & 特征）

1000种物体类别。
模型输出 = 基于1000个类别标签的概率分布（来自softmax函数）。

Top-1 Accuracy
- 对于每张测试图片，如果模型预测的最有可能的类别 == 真实类别，则模型是正确的。
Top-5 Accuracy
- 对于每张测试图片，如果模型预测的5个最可能的类别中的任何一个 == 真实类别，则模型是正确的。

卷积神经网络（CNN）是深度学习中专门用于图像处理的一种网络架构。它们在许多图像分类任务中都取得了非常好的结果，甚至在某些任务上超过了人类的表现。但与此同时，CNN也可能会犯一些错误，但这些错误通常与图像的特定属性（如不常见的角度或小物体）有关，这意味着CNN在完成这些任务时确实学到了有意义的特征。