神经网络与深度学习-屈桢深-学习笔记（第三周）-CSDN博客

本文链接：https://blog.csdn.net/qq_60909870/article/details/137641784

本文介绍了卷积神经网络的基础概念，包括全连接网络的局限与深度学习平台如PyTorch的使用。详细讲解了特征提取、卷积、池化等核心原理，并以LeNet-5、AlexNet、VGG-16和残差网络为例展示了不同网络结构。

摘要由CSDN通过智能技术生成

卷积神经网络基础

1、深度学习

1.1 全连接网络

全连接网络本质上是把所有的输入与输出连接起来的单个交换机。具有吞吐量大、可靠性高、低延时的特点，但同时也由于链接权过多，算的慢，难收敛，同时可能进入局部极小值，也容易产生过拟合问题。

为了解决全连接网络解决算的慢问题，可以通过减少权值连接，每一个节点只连到上一层的少数神经元，即出现了局部连接网络；而为了解决权值过多产生的过拟合问题，则可以通过信息分层处理，每一层在上层提取特征的基础上获取进行再处理，得到更高级别的特征。

1.2 深度学习平台

1.2.1 深度学习平台简介

1.2.2 PyTorch基本使用

PyTorch是一个Python的深度学习库。PyTorch相比于TensorFlow2 具有上手简单、学习速度快、函数简洁、运用灵活的优点。到目前，据统计已有80%的研究采用PyTorch，包括Google。

PyTorch用“结点”（nodes）和“线”(edges)的有向图来描述数学计算的图像。“节点” 一般用来表示施加的数学操作，但也可以表示数据输入的起点 /输出的终点，或者是读取 /写入持久变量的终点。“线”表示“节点”之间的输入/输出关系。这些数据“线” 可以输运“size可动态调整”的多维数据数组，即 “张量”（tensor ）。张量是一个物理量，对高维 (维数 ≥ 2) 的物理量进行 “量纲分析” 的一种工具。简单的可以理解为：一维数组称为矢量，二维数组为二阶张量，三维数组为三阶张量 …

PyTorch使用tensor表示数据，使用 Dataset、DataLoader 读取样本数据和标签，使用变量 (Variable) 存储神经网络权值等参数，使用计算图 (computational graph) 来表示计算任务，并在代码运行过程中同时执行计算图。

PyTorch的简单示例如下：

2、卷积神经网络基础

2.1 基本概念

特征提取：卷积，将卷积核作为一个滑动窗口在特征层上面进行滑动，每次滑动的的距离由步长决定，每滑动一次就将特征层的值与卷积核的值对应相乘再相加，最终得到卷积结果。注意，图像卷积时，根据定义，需要首先把卷积核上下左右转置。

填充（Padding）：在矩阵的边界上填充一些值，以增加矩阵的大小，通常用0或者复制边界像素来进行填充。

步长（Stride）：卷积核在图像上移动的像素数，如图步长为2。

池化（Pooling）：使用局部统计特征（如均值或最大值）解决特征过多问题。

2.2 卷积神经网络结构

卷积神经网络由多个卷积层和下采样层构成，后面可连接全连接网络。其中卷积层是𝑘个滤波器，下采样层采用mean或max。其算法表示如下：

前向传播定义为：

$z^{[n]}(x,y)=\sum_{u=0}^{p}\sum_{v=0}^{q}a^{[n-1]}(x+u,y+v)w^{[n],k}(u,v)$

$a^{[n]}(x,y)=f(z^{[n]}(x,y))$

若第i层是卷积＋池化，则：

$a^{[n]}(x,y)=downsample(\sum_{u=0}^{p}\sum_{v=0}^{q}a^{[n-1]}(x+u,y+v)w_{s}(u,v))$

3、误差反向传播

3.1 经典BP算法

如果当前是输出层：

$\delta^{[L]}_{i}=a_{i}(1-a_{i})e_{i}$

如果当前是隐含层，按从后向前顺序更新：

$\delta^{[n]}_{i}=[\sum_{j=1}^{m}w^{[n+1]}_{ji}\delta ^{[n+1]}_{j}](a^{[n]}_{i})'$

$\Delta w^{[n]}_{ji}(k)=\alpha \cdot \delta ^{[n]}_{i}\cdot a^{[n-1]}_{j}$

$a^{[0]}_{j}=x_{j}$