Task3~Task3.2《深度学习详解》- 卷积神经网络与批量归一化
Task 3: 批量归一化 (Batch Normalization)
3.7 批量归一化 (Batch Normalization)
- 目的:改善训练过程,特别是解决梯度消失或爆炸问题,加速收敛。
- 操作:
- 在每个小批量数据上计算均值和方差,进行归一化。
- 引入可学习的参数γ(缩放因子)和β(位移因子),以恢复网络的表达能力。
- 测试时处理:
- 使用训练过程中累积的均值和方差的移动平均值进行归一化,确保测试时的稳定性。
3.7.1 内部协变量偏移 (Internal Covariate Shift)
- 概念:网络层之间由于参数更新导致的分布变化。
- 影响:可能导致训练困难,批量归一化通过规范化层输入来减少这种偏移。
3.7.2 实验结果
- 效果:批量归一化可以显著加速深度网络的训练过程,并提高模型性能。
- 学习率:允许使用更高的学习率,进一步加速训练。
Task 3.2: 卷积神经网络 (Convolutional Neural Networks)
4.1 卷积神经网络基础
- 图像分类:机器视觉任务,判断图像内容(如猫、狗等)。
- 图像表示:图像作为三维张量(宽、高、通道数),例如RGB图像的通道数为3。
- 模型输入:图像通常调整为固定尺寸,并“拉直”成一维向量作为网络输入。
4.2 感受野与参数共享
- 感受野 (Receptive Field):神经元只关心图像的一个局部区域。
- 参数共享:不同感受野的神经元共享相同的权重和偏置,减少了模型参数数量。
4.3 卷积层
- 卷积操作:通过滤波器(卷积核)在图像上滑动并执行点积操作,形成特征映射 (Feature Map)。
- 步幅 (Stride):滤波器移动的步长,影响输出特征映射的大小。
- 填充 (Padding):在图像边缘补充像素(通常是0),以控制输出尺寸。
4.4 汇聚 (Pooling)
- 目的:减少特征维度,降低计算复杂度,使特征检测更加鲁棒。
- 最大汇聚 (Max Pooling):在汇聚窗口中选取最大值。
- 平均汇聚 (Average Pooling):计算汇聚窗口内的平均值。
4.5 卷积神经网络的应用
- 图像识别:通过多层卷积和汇聚提取图像特征进行分类。
- 下围棋:AlphaGo使用卷积神经网络处理围棋棋盘状态。
Task 3.3: 卷积神经网络 (续)
4.6 观察 3:下采样不影响模式检测
- 下采样:减小图像尺寸,但不影响模式检测。
- 应用:在图像识别中,下采样可以减少计算量,同时保持特征信息。
4.7 简化 3:汇聚
- 汇聚操作:对特征映射进行下采样,减少图像尺寸。
- 最大汇聚:选择区域内最大值。
- 平均汇聚:计算区域内平均值。
4.8 卷积神经网络的应用:下围棋
- AlphaGo:使用卷积神经网络处理围棋棋盘状态。
- 网络输入:棋盘上黑子和白子的位置。
- 网络输出:下一步最佳落子位置。
总结
卷积神经网络通过局部感受野和参数共享有效地处理图像数据,而批量归一化通过规范化层输入改善了训练过程,两者均为深度学习在图像处理领域的重要技术。批量归一化特别适用于大规模数据集和复杂网络结构的训练,能够提高训练的稳定性和效率。卷积神经网络在图像识别、语音处理和围棋等领域有广泛应用,其强大的特征提取能力使其成为深度学习领域的核心技术之一。