Datawhale X 李宏毅苹果书AI夏令营进阶 Task 3 笔记

Task 3

1)批量归一化

概念:

批量归一化:在一个批量上做特征归一化,让不同维度的数据范围相同

特征归一化:将数据的特征值进行标准化处理,使得不同特征在相似的尺度范围内

1 . 归一化步骤

 对特征归一化可以按照以下步骤进行:

1. 计算平均值

        计算公式为

即对求平均值。

2. 计算标准差

       计算公式为

其中平方是对向量的每一个元素做平方,开根号是对向量里的每个元素开根号。

3. 进行归一化:

根据计算出的,对进行归一化,公式为

这里的除号代表逐元素的除,即分子分母两个向量对应元素相除。

------>>>>批量归一化 

4 . 为了避免归一化后的数据均值带来限制,引入参数

代表逐元素的相乘。

         测试阶段,由于没有批量数据,通常使用在训练阶段计算得到的均值和标准差的移动平均值(通过对各个批量计算出的和进行移动平均得到)来进行归一化处理。

 

概念:

协变量偏移(covariate shift):训练集和预测集样本分布不一致的问题就叫做协变量偏移现象。

 

       内部协变量偏移可能不是训练网络的时候,最主要的问题,它可能也不是批量归一化会好的一个的。

 

2 . 批量归一化的优点

       让不同维度的数据范围相同,使误差表面更加平滑,从而加快训练速度,提高模型的稳定性和泛化能力。

 

Q:批量归一化如何改善深度神经网络的训练过程

A:批量归一化通过标准化每一层的输入,使得每一层的激活值在训练时保持在一个相对稳定的范围内。这减少了梯度消失和梯度爆炸的问题,并允许使用更高的学习率,从而加快模型的训练过程。

 

3 . 归一化的不同方法

图自Group Normalization paper

 批量重归一化(Batch Renormalization):

        通过在训练过程中调整批量归一化中的统计量,使其更稳定地适应不同的批量大小和训练阶段,提高模型在小批量或变化的训练条件下的性能。

层归一化(Layer Normalization):

       是对单个样本在一层中的所有神经元进行归一化。不依赖于批量大小,当批量大小较小时或者处理变长序列时,层归一化表现更为稳定。

实例归一化(Instance Normalization):

        对每个样本的每个通道分别进行归一化,不考虑样本之间的关联性,强调每个实例的独立性,有助于保留图像的风格特征,用于图像风格迁移等任务中。

组归一化(Group Normalization):

       将通道分成若干组,然后在每组内进行归一化操作。在小批量大小的情况下表现较好,不严格依赖于批量大小。

权重归一化(Weight Normalization):

        对神经网络的权重进行归一化。通过将权重向量分解为方向和幅度两个部分,并对幅度进行约束,来提高训练的稳定性和收敛速度。

谱归一化(Spectrum Normalization):

       用于约束神经网络的 Lipschitz 常数,通过对神经网络的权重矩阵进行谱归一化,使得网络的输出变化相对输入变化更加稳定,从而提高模型的稳定性和泛化能力。

图自 各种归一化Normalization(BN、LN、IN、GN、WN)_normalization归一化-CSDN博客

图自 区分不同的归一化方法,批归一化、层归一化、实例归一化、组归一化_批归一化、实例归一化、层归一化的优缺点-CSDN博客

 

扩展:【机器学习】数据归一化全方法总结:Max-Min归一化、Z-score归一化、数据类型归一化、标准差归一化等_min-max归一化-CSDN博客 深度学习中的9种归一化方法概述_深度学习 归一化-CSDN博客

2)卷积神经网络 

卷积神经网络在图像识别中的应用

图像作为模型输入:

        图像是一个三维张量,需要先 “拉直” 为向量才能作为网络输入。输入向量长度较大,会导致第一层权重数量巨大,增加过拟合风险 

 

1 . 卷积神经网络的化简 

1 . 检测模式不需要整张图像:

      图像识别任务中,神经元只需检测图像中的重要模式,无需看整张图像。

2 . 感受野

       感受野是神经元的输入范围,可以根据问题设计。

      常见的感受野设定方式是核大小为 3x3,感受野可以有不同大小,也可以只考虑某些通道。感受野之间可以重叠,步幅一般设为 1 或 2,超出感受野范围的值可使用零填充。

3 . 同样的模式可能会出现在图像的不同区域

        同样的模式出现在图像不同位置时,无需在每个感受野都设置检测该模式的神经元,会导致参数量过多。

4 . 共享参数

       不同感受野的神经元可以共享参数,减少参数量。每个感受野可以有一组神经元守备,它们之间可以共享参数,常见的共享方法在图像识别中有特定的设定方式。

 

滤波器:被共享的参数

       卷积层里面有很多滤波器,其大小是 3x3x 通道。滤波器通过与图像做内积来检测模式,每个滤波器会产生一组数字,称为特征映射。卷积层可以叠很多层,下一层滤波器的高度取决于上一层的输出通道数。

 

       感受野加上参数共享就是卷积层,用到卷积层的网络就叫卷积神经网络。卷积神经网络模型偏差较大,但用在图像上不是问题。

 

5 . 下采样不影响模式检测与汇聚操作:

       下采样不影响图像中的模式检测。根据这个观察,汇聚被用到图像识别中,汇聚没有参数,像激活函数一样是一个操作符。以最大汇聚为例,在每一组数字中选最大的作为代表,汇聚可以把图像变小,减少运算量。一般卷积和汇聚交替使用,但近年来也有全卷积神经网络,不使用汇聚。最后通过扁平化将图像变成向量,再丢进全连接层和 softmax 得到图像识别结果。

扁平化:把图像里面本来排成矩阵样子的东西“拉直”,即把所有的数值“拉直”变成一个向量。 

 

Q:下采样(Pooling)在卷积神经网络中的作用及其可能的缺点

A:下采样通过减少特征图的尺寸来降低计算量和内存需求,并保留重要的特征。然而,过度下采样可能导致细节信息的丢失,尤其是在需要精细特征的任务中,如目标检测或分割。

 

Q:感受野一定要相连吗?

A:感受野通常是相连的。这是因为卷积操作的局部性质使得每个神经元的输出是基于输入数据的一个连续区域,但不一定要相连。例如,在处理一些特定任务时,可能会设计一些非局部网络结构(如Non-local Neural Networks),其中的感受野可以跨越不连续的区域,这样的设计有助于捕捉长距离依赖关系。

 

卷积层与全连接层的关系:

       全连接层可以看整张图像或一个小范围,加上感受野后只能看一个小范围,网络弹性变小。参数共享又进一步限制了网络弹性。虽然卷积神经网络模型偏差大,但专门为图像设计,在图像任务上有优势。

2 . 实例

下围棋:

        分类问题

        网络输入是棋盘上黑子和白子的位置表示成的向量,输出是下一步落子的位置。棋盘可以看作是分辨率为 19x19 的图像,每个位置用 48 个通道描述。卷积神经网络适用于下围棋是因为围棋与图像有共同特性,如只看小范围可知道重要模式,同样的模式可能出现在不同位置。AlphaGo 把棋盘看作 19x19x48 大小的图像,使用特定的滤波器大小、数量和步幅,没有用汇聚,最后加上 softmax。

 注意:

        卷积神经网络不能处理图像放大缩小或旋转问题,做图像识别时往往要做数据增强。

         Special Transformer Layer 网络架构可以处理图像缩放和旋转问题。

推荐:

CNN笔记:通俗理解卷积神经网络_cnn卷积神经网络-CSDN博客

卷积神经网络(CNN)详细介绍及其原理详解-CSDN博客

三万字硬核详解:卷积神经网络CNN(原理详解 + 项目实战 + 经验分享)_卷积神经网络实战-CSDN博客

【综述】一文读懂卷积神经网络(CNN)-CSDN博客

卷积神经网络超详细介绍-CSDN博客 

参考文献:

区分不同的归一化方法,批归一化、层归一化、实例归一化、组归一化_批归一化、实例归一化、层归一化的优缺点-CSDN博客

各种归一化Normalization(BN、LN、IN、GN、WN)_normalization归一化-CSDN博客

  • 30
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值