“Datawhale X 李宏毅苹果书 AI夏令营”深度学习-第三章 深度学习基础3.3456+实操

TASK 1

  1. 训练网络时的问题

    • 训练网络时,损失不再下降时,可能不是卡在局部最小值或鞍点,而是单纯的损失无法再下降,此时梯度可能仍然很大。
    • 一般的梯度下降难以训练网络,例如在凸的误差表面中,学习率过大或过小都会导致训练效果不佳。
  2. 自适应学习率

    • AdaGrad:根据梯度大小自动调整学习率,梯度大时学习率减小,梯度小时学习率放大。通过计算梯度的均方根来调整学习率,使学习率与参数相关。
    • RMSProp:可以动态调整学习率,通过调整超参数 α 来决定当前梯度相较于之前梯度的重要性,从而更快地 “踩刹车” 或增大步伐。
    • Adam:可以看作 RMSProp 加上动量,使用动量作为参数更新方向,并且能够自适应调整学习率。
  3. 学习率调度:

    • 问题:使用 AdaGrad 方法优化时,在接近终点的位置可能会突然 “爆炸”,因为 σi_t 是把过去所有的梯度拿来作平均,会导致步伐变大。
    • 解决方法:采用学习率衰减(learning rate decay)或预热的方式。学习率衰减让 η 越来越小,预热则是让学习率先变大后变小,以收集有关误差表面的情报,使 σ 的统计数据更精准。
  4. 优化总结:

    • 目前优化的完整版本为,其中 mi_t 是动量,通过它和 σi_t 来实现学习率调度。
    • 动量 mi_t 和均方根 σi_t 在使用过去所有梯度的方式不同,不会互相抵消。

TASK 2

  1. 分类与回归的关系

    • 回归是输入向量 x,输出ˆy,希望ˆy 跟标签 y 越接近越好;分类可当作回归,输出ˆy 要跟正确答案的那个类越接近越好,可将类用数字或独热向量表示。
    • 如果有三个类,标签 y 是三维向量,网络也要输出三个数字,通过乘上不同权重和加上偏置得到。
  2. 带有 softmax 的分类

    • 分类实际过程中往往会把通过 softmax 函数得到 y,再去计算 y 跟之间的距离。
    • softmax 函数的作用是将 y 归一化到 0 到 1 之间,使其与标签的计算相似度,还会让大的值跟小的值的差距更大。
    • 一般有两个类的时候,不套 softmax,而是直接取 sigmoid,此时 sigmoid 和 softmax 是等价的。
  3. 分类损失

    • 计算 y′跟 y 之间的距离可以用均方误差或交叉熵,交叉熵更常用,最小化交叉熵其实就是最大化似然。
    • 做分类时,选均方误差可能会训练不起来,用 Adam 有机会训练,但过程比较困难,改变损失函数可以改变优化的难度.

TASK 3

实操大致方向:

图像分类任务范式

  1. 导入相关库:包括数据处理、神经网络、数据集操作等库,设置随机种子和 CUDA 配置确保实验可重复性。
  2. 数据准备
    • 定义图像预处理操作,可添加数据增强。
    • 构建训练和验证数据集及加载器。
  3. 定义模型Classifier类包含卷积层和全连接层,用于图像特征提取和分类。
  4. 配置训练:选择设备,初始化模型,设置损失函数、优化器等参数。
  5. 训练与评估:多轮训练优化模型参数,根据验证集准确率保存最佳模型或提前停止训练。
  6. 预测与保存:使用测试数据集进行预测,将结果保存为submission.csv文件。

优化方向

  1. 网络结构优化:增加深度、调整卷积核大小、引入残差连接、应用现代架构。
  2. 数据增强:包括几何变换、颜色变换、噪声添加、裁剪填充和高级技术如 MixUp、Random Erasing、Adversarial Augmentation 等。

如何使用随机种子来确保实验结果的可重复性?

图像分类任务的准确率应该达到多少才算合格?

如何评估一个图像分类模型的性能?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值