批量归一化 卷积神经网络Datawhale X 李宏毅苹果书 AI夏令营

批量归一化

在误差表面比较崎岖的时候,我们可以通过批量归一化将误差表面变平整,如果我们可以给不同的维度,同样的数值范围的话,那我们可能就可以制造比较好的误差表面,让训练变得比较容易一点其实有很多不同的方法,这些不同的方法往往就合起来统称为特征归一化。

特征归一化的一种可能性,即 Z 值归一化(Z-score normalization),也称为标准化(standardization)。它并不是特征归一化的全部,假设 x1 到 xR,是我们所有的训练数据的特征向量。我们把所有训练数据的特征向量,统统都集合起来。向量 x1 里面就x11 代表 x1 的第一个元素,x21 代表 x2 的第一个元素,以此类推。我们把不同笔数据即不同特征向量,同一个维度里面的数值,把它取出来,对于每个维度 i,计算其平均值(mean) mi和标准差(standard deviation)σi。接下来我们就可以做一种归一化。

我们就是把这边的某一个数值 x,减掉这一个维度算出来的平均值,再除掉这个维度,算出来的标准差,得到新的数值 x˜。得到新的数值以后,再把新的数值把它塞回去。

做完归一化以后,这个维度上面的数值就会平均是 0,其方差是 1,所以这一排数值的分布就都会在 0 上下;对每一个维度都做一样的归一化,所有特征不同维度的数值都在 0 上下,可能就可以制造一个比较好的误差表面。所以像这样子的特征归一化方式往往对训练有帮助,它可以让在做梯度下降的时候,损失收敛更快一点,训练更顺利一点。

特征归一化,要放在激活函数之前,之后都是可以的,在实现上,没有太大的差别。

这边就会有一个问题了,因为训练数据非常多,现在一个数据集可能有上百万笔数据,GPU 的显存无法把它整个数据集的数据都加载进去。在实现的时候,我们不会让这一个网络考虑整个训练数据里面的所有样本,而是只会考虑一个批量里面的样本。所以批量归一化适用于批量大小比较大的时候,批量大小如果比较大,也许这个批量大小里面的数据就足以表示整个数据集的分布。

卷积神经网络
用于处理数据具有网格结构的深度学习模型,最常用于图像处理和计算机视觉任务。

2.1CNN的主要结构:
输入层(Input Layer):接收原始数据,例如图像。对于图像,输入通常是一个三维矩阵(高度 x 宽度 x 通道数,如 RGB 图像有三个通道)。

卷积层(Convolutional Layer): CNN 的核心层,负责提取数据的局部特征。卷积层通过卷积操作(应用滤波器)将输入图像或特征图转换为多个特征图每个滤波器在图像上滑动(应用共享参数),检测不同的特征如边缘、角点等。

激活层(Activation Layer):卷积层输出的特征图通常通过一个非线性激活函数进行处理,如 ReLU(Rectified Linear Unit)。激活函数引入非线性,使网络能够学习到更加复杂的特征。

池化层(Pooling Layer):用于对特征图进行降采样,减少特征图的尺寸,保留重要特征。常见的池化操作有最大池化(Max Pooling)和平均池化(Average Pooling)。

全连接层(Fully Connected Layer, FC Layer):这一层与传统的神经网络类似,将前面提取的特征图展平,并通过一系列全连接的神经元进行分类或回归任务。

输出层(Output Layer):最后一层通常使用 Softmax /Sigmoid 函数,将全连接层的输出转换为类概率分布或回归结果。

2.2感受野:
卷积层中某个神经元在输入数据上所能看到的区域。


意义:感受野越大,神经网络就能捕捉到输入数据中更大范围的特征信息。通过堆叠多个卷积层,网络可以逐渐增加感受野,从而在后期层中捕捉到全局特征。

2.3共享参数:
同一卷积层中的所有神经元使用相同的卷积核(过滤器)参数。这种方式减少了网络的参数数量,提高了模型的训练效率。

意义:

减少参数:相比全连接网络,CNN的参数大大减少,这使得训练速度更快,所需的存储空间更小。
提升泛化能力:可以在图像的不同区域提取相同类型的特征,如边缘或角点,这有助于模型更好地理解图像中的模式。
2.4汇聚:
采样操作,逐步减少特征图的空间大小,从而减少网络参数,控制过拟合,并保留重要特征。
一般汇聚操作为:最大汇聚和平均汇聚。
比如:
输入特征图:
[1,3,2,4]
[5,6,1,2]
[7,3,4,5]
[3,2,6,7]

经过2×2的汇聚:
[6,4]
[7,7]

意义:

降维:汇聚层可以减少特征图的尺寸,从而减少计算量和模型参数。
保留重要特征:最大汇聚可以保留特征图中最显著的特征,如边缘或纹理信息。
2.5为什么CNN可以用于下围棋?
局部感受野:关注棋盘上的局部特征。
参数共享:在CNN中,卷积核在整个棋盘上滑动并提取特征,参数在不同位置共享。
汇聚(池化):CNN中的池化层通过对局部特征进行下采样,减少了数据的维度。
CNN可以通过多个卷积层逐层提取棋盘区域的特征,选择下棋位置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值