Datawhale X 李宏毅苹果书 AI夏令营 深度学习(进阶)方向 Task02 学习笔记

在深度学习的实际应用中,优化模型参数以提高性能和减少误差是至关重要的。Task2涵盖了几种高级的优化策略,包括自适应学习率、不同的优化算法以及实践操作。

1)自适应学习率

自适应学习率方法根据每个参数的更新历史自动调整其学习率,提高了优化的灵活性和效率。

  1. AdaGrad

    • 原理:AdaGrad通过累积每个参数的梯度平方和来调整学习率,适合处理稀疏数据。
    • 优点:对于不同频率的特征自动调整学习率。
    • 缺点:学习率持续减小,可能过早降低至非常小的值,导致学习停滞。
  2. RMSProp

    • 改进:引入衰减系数解决AdaGrad学习率持续下降的问题,使得学习率在必要时可以保持一定的大小。
  3. Adam

    • 结合:Adam算法结合了Momentum和RMSProp的优点,不仅依赖于一阶矩估计(梯度的指数加权平均)也利用了二阶矩估计(梯度平方的指数加权平均)。
  4. 学习率调度

    • 策略:根据训练进度动态调整学习率,如预热、指数衰减等,有助于模型在训练后期稳定收敛。
2)分类任务的优化

分类是深度学习中的常见任务,涉及将实例分配到预定义的类别。

  1. 损失函数

    • 交叉熵损失:测量预测概率分布与实际分布之间的差异,是分类问题中最常用的损失函数。
  2. 激活函数

    • Softmax:将模型输出的原始分数转换为概率分布。
    • Sigmoid:在二分类中与Softmax等价,用于输出概率预测。
3)批量归一化
  • 目的:通过对每个小批量的输入进行标准化处理,减少内部协变量偏移(输入分布的变化),加速训练过程。
  • 效果:有助于提高训练稳定性,允许使用更高的学习率,加速收敛。
4)实践案例:卷积神经网络(CNN)图像分类
  1. 数据准备:加载并预处理数据,包括调整大小、转换格式等。
  2. 模型构建:定义卷积神经网络结构,包括卷积层、池化层、全连接层等。
  3. 训练与验证:利用训练数据进行模型训练,并在验证集上评估模型性能。
  4. 超参数调优:调整学习率、批量大小等参数,使用学习率调度和早停技术优化训练过程。
  5. 结果分析:通过可视化工具如t-SNE检查模型对不同类别的分离能力。
  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值