深度学习之卷积神经网络

最新推荐文章于 2023-12-31 01:10:12 发布

爱划水的小白

最新推荐文章于 2023-12-31 01:10:12 发布

阅读量2.5k

点赞数 1

文章标签：深度学习 cnn

本文链接：https://blog.csdn.net/qq_53094315/article/details/121256025

版权

图片皆来自《深度学习入门：基于Python的理论与实现》课本。

卷积神经网络（CNN）

应用于图像识别、语音识别等。

1、整体结构

全连接（Affine层）VS CNN

全连接：
在这里插入图片描述
CNN：

2、卷积层

2.1 全连接层存在的问题

当输入数据是图像时，图像通常是高、长、通道方向上的3维形状，全连接层输入时，需要将3维数据拉平为1维数据，如手写数字识别。
因为全连接层会忽视形状，将全部的输入数据作为相同的神经元（同一维度的神经元）处理，所以无法利用与形状相关的信息。
而卷积层可以保持形状不变。当输入数据是图像时，卷积层会以3维数据的形式接收输入数据，并同样以3维数据的形式输出至下一层。

2.2 卷积运算

卷积层进行的处理就是卷积运算。卷积运算相当于图像处理中的“滤波器运算”。
在这里插入图片描述

1×2+2×0+3×1+0×0+1×1+2×2+3×1+0×0+1×2=15

在这里插入图片描述

2.3 填充

在进行卷积层的处理之前，有时要向输入数据的周围填入固定的数据（比如0等），这称为填充（padding）。
在这里插入图片描述

为什么使用填充？

主要是为了调整输出的大小。比如，对大小为(4, 4)的输入数据应用(3, 3)的滤波器时，输出大小变为(2, 2)，相当于输出大小比输入大小缩小了 2个元素。这在反复进行多次卷积运算的深度网络中会成为问题。为什么呢？因为如果每次进行卷积运算都会缩小空间，那么在某个时刻输出大小就有可能变为 1，导致无法再应用卷积运算。为了避免出现这样的情况，就要使用填充。在刚才的例子中，将填充的幅度设为 1，那么相对于输入大小(4, 4)，输出大小也保持为原来的(4, 4)。因此，卷积运算就可以在保持空间大小不变的情况下将数据传给下一层。

2.4 步幅

应用滤波器的位置间隔称为步幅（stride）。
在这里插入图片描述

步幅可以指定应用滤波器的间隔。
假设输入大小为(H, W)，滤波器大小为(FH, FW)，输出大小为(OH, OW)，填充为P，步幅为S。

无法除尽时，采用四舍五入。

3、池化层

池化是缩小高、长方向上的空间的运算。
在这里插入图片描述
除了Max池化之外，还有Average池化等。相对于Max池化是从目标区域中取出最大值，Average池化则是计算目标区域的平均值。在图像识别领域，主要使用Max池化。

池化层的特征

没有要学习的参数

通道数不发生变化

对微小的位置变化具有鲁棒性（健壮）

在这里插入图片描述

4、卷积层和池化层的实现

4.1 im2col（从图像到矩阵）

im2col是一个函数，将输入数据展开以适合滤波器（权重）。对3维的输入数据应用im2col后，数据转换为2维矩阵（正确地讲，是把包含批数量的4维数据转换成了2维数据）。
在这里插入图片描述

4.2 卷积层的实现

im2col接口:

im2col (input_data, filter_h, filter_w, stride=1, pad=0)
• input_data―由（数据量，通道，高，长）的4维数组构成的输入数据
• filter_h―滤波器的高
• filter_w―滤波器的长
• stride―步幅
• pad―填充
卷积层代码实现：

class Convolution:
	 def __init__(self, W, b, stride=1, pad=0):
		 self.W = W
		 self.b = b
		 self.stride = stride
		 self.pad = pad
	 def forward(self, x):
		 FN, C, FH, FW = self.W.shape
		 N, C, H, W = x.shape
		 out_h = int(1 + (H + 2*self.pad - FH) / self.stride)
		 out_w = int(1 + (W + 2*self.pad - FW) / self.stride)
		 col = im2col(x, FH, FW, self.stride, self.pad)
		 col_W = self.W.reshape(FN, -1).T # 滤波器的展开
		 out = np.dot(col, col_W) + self.b
		 out = out.reshape(N, out_h, out_w, -1).transpose(0, 3, 1, 2)
		 return out

用im2col展开输入数据，并用reshape将滤波器展开为2维数组。

4.3 池化层的实现

池化的应用区域按通道单独展开。
在这里插入图片描述
代码实现：

class Pooling:
	 def __init__(self, pool_h, pool_w, stride=1, pad=0):
		 self.pool_h = pool_h
		 self.pool_w = pool_w
		 self.stride = stride
		 self.pad = pad
	 def forward(self, x):
		 N, C, H, W = x.shape
		 out_h = int(1 + (H - self.pool_h) / self.stride)
		 out_w = int(1 + (W - self.pool_w) / self.stride)
		 # 展开(1)
		 col = im2col(x, self.pool_h, self.pool_w, self.stride, self.pad)
		 col = col.reshape(-1, self.pool_h*self.pool_w)
		 # 最大值(2)
		 out = np.max(col, axis=1) #。np.max可以指定axis参数，并在这个参数指定的各个轴方向上求最大值。np.max(x, axis=1)：在输入x的第1维的各个轴方向上求最大值。
		 # 转换(3)
		 out = out.reshape(N, out_h, out_w, C).transpose(0, 3, 1, 2)
		 return out

5、 CNN的实现

参数：
• input_dim―输入数据的维度：（通道，高，长）
• conv_param―卷积层的超参数（字典）。字典的关键字如下：
filter_num―滤波器的数量
filter_size―滤波器的大小
stride―步幅
pad―填充
• hidden_size―隐藏层（全连接）的神经元数量
• output_size―输出层（全连接）的神经元数量
• weitght_int_std―初始化时权重的标准差
代码实现：
略

6、具有代表性的CNN

6.1 LeNet

在这里插入图片描述
LeNet VS CNN

LeNet中使用sigmoid函数，而现在的CNN中主要使用ReLU函数。
原始的LeNet中使用子采样（subsampling）缩小中间数据的大小，而现在的CNN中Max池化是主流。

6.2 　AlexNet

在这里插入图片描述
•激活函数使用ReLU。
• 使用进行局部正规化的LRN（Local Respons Normalization）层。
• 使用Dropout。

爱划水的小白

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习之卷积神经网络

卷积神经网络（CNN）应用于图像识别、语音识别等。1、整体结构全连接（Affine层）VS CNN全连接：CNN：2、卷积层2.1 全连接层存在的问题当输入数据是图像时，图像通常是高、长、通道方向上的3维形状，全连接层输入时，需要将3维数据拉平为1维数据，如手写数字识别。因为全连接层会忽视形状，将全部的输入数据作为相同的神经元（同一维度的神经元）处理，所以无法利用与形状相关的信息。而卷积层可以保持形状不变。当输入数据是图像时，卷积层会以3维数据的形式接收输入数据，并同样以3维数据的
复制链接

扫一扫