“Datawhale X 李宏毅苹果书 AI夏令营”深度学习-第三章深度学习基础3.3456+实操-CSDN博客

本文链接：https://blog.csdn.net/wanderlust_0823/article/details/141758040

TASK 1

训练网络时的问题：
- 训练网络时，损失不再下降时，可能不是卡在局部最小值或鞍点，而是单纯的损失无法再下降，此时梯度可能仍然很大。
- 一般的梯度下降难以训练网络，例如在凸的误差表面中，学习率过大或过小都会导致训练效果不佳。
自适应学习率：
- AdaGrad：根据梯度大小自动调整学习率，梯度大时学习率减小，梯度小时学习率放大。通过计算梯度的均方根来调整学习率，使学习率与参数相关。
- RMSProp：可以动态调整学习率，通过调整超参数 α 来决定当前梯度相较于之前梯度的重要性，从而更快地 “踩刹车” 或增大步伐。
- Adam：可以看作 RMSProp 加上动量，使用动量作为参数更新方向，并且能够自适应调整学习率。
学习率调度：
- 问题：使用 AdaGrad 方法优化时，在接近终点的位置可能会突然 “爆炸”，因为 σi_t 是把过去所有的梯度拿来作平均，会导致步伐变大。
- 解决方法：采用学习率衰减（learning rate decay）或预热的方式。学习率衰减让 η 越来越小，预热则是让学习率先变大后变小，以收集有关误差表面的情报，使 σ 的统计数据更精准。
优化总结：
- 目前优化的完整版本为，其中 mi_t 是动量，通过它和 σi_t 来实现学习率调度。
- 动量 mi_t 和均方根 σi_t 在使用过去所有梯度的方式不同，不会互相抵消。

TASK 2

分类与回归的关系：
- 回归是输入向量 x，输出ˆy，希望ˆy 跟标签 y 越接近越好；分类可当作回归，输出ˆy 要跟正确答案的那个类越接近越好，可将类用数字或独热向量表示。
- 如果有三个类，标签 y 是三维向量，网络也要输出三个数字，通过乘上不同权重和加上偏置得到。
带有 softmax 的分类：
- 分类实际过程中往往会把通过 softmax 函数得到 y，再去计算 y 跟之间的距离。
- softmax 函数的作用是将 y 归一化到 0 到 1 之间，使其与标签的计算相似度，还会让大的值跟小的值的差距更大。
- 一般有两个类的时候，不套 softmax，而是直接取 sigmoid，此时 sigmoid 和 softmax 是等价的。
分类损失：
- 计算 y′跟 y 之间的距离可以用均方误差或交叉熵，交叉熵更常用，最小化交叉熵其实就是最大化似然。
- 做分类时，选均方误差可能会训练不起来，用 Adam 有机会训练，但过程比较困难，改变损失函数可以改变优化的难度.

TASK 3

实操大致方向：

图像分类任务范式

导入相关库：包括数据处理、神经网络、数据集操作等库，设置随机种子和 CUDA 配置确保实验可重复性。
数据准备：
- 定义图像预处理操作，可添加数据增强。
- 构建训练和验证数据集及加载器。
定义模型：Classifier类包含卷积层和全连接层，用于图像特征提取和分类。
配置训练：选择设备，初始化模型，设置损失函数、优化器等参数。
训练与评估：多轮训练优化模型参数，根据验证集准确率保存最佳模型或提前停止训练。
预测与保存：使用测试数据集进行预测，将结果保存为submission.csv文件。

优化方向

网络结构优化：增加深度、调整卷积核大小、引入残差连接、应用现代架构。
数据增强：包括几何变换、颜色变换、噪声添加、裁剪填充和高级技术如 MixUp、Random Erasing、Adversarial Augmentation 等。

如何使用随机种子来确保实验结果的可重复性？

图像分类任务的准确率应该达到多少才算合格？

如何评估一个图像分类模型的性能？

“Datawhale X 李宏毅苹果书 AI夏令营”深度学习-第三章深度学习基础3.3456+实操

TASK 1

训练网络时的问题：

自适应学习率：

学习率调度：

优化总结：

TASK 2

分类与回归的关系：

带有 softmax 的分类：

分类损失：

TASK 3

实操大致方向：

“Datawhale X 李宏毅苹果书 AI夏令营”深度学习-第三章 深度学习基础3.3456+实操

TASK 1

训练网络时的问题：

自适应学习率：

学习率调度：

优化总结：

TASK 2

分类与回归的关系：

带有 softmax 的分类：

分类损失：

TASK 3

实操大致方向：

“Datawhale X 李宏毅苹果书 AI夏令营”深度学习-第三章深度学习基础3.3456+实操