Datawhale X 李宏毅苹果书 AI夏令营 Task-2

深度学习基础:自适应学习率(Adaptive Learning rate)

1. learning rate impact in trainning

Training is stuck because of PING-PONG around critical point due to learning rate is too big.

Traing is hard to reach critical point due to learning rate is too small which leads to parameter update is slow as gradient is small in flat error surface.

Conclusion: learning rate should be adjusted according to gradient situation during training.

2. Adaptive learning rate Method

different paramter have different gradient change situation:

a) gradient change rapid -> small learning rate;

b) gradient change slow -> big learning rate;

1) Adagrad(假设同个参数变化是固定的, 要么快, 要么慢)

Adagrad 对学习率的调整 是基于 之前训练的所有梯度, 每个梯度对学习率调整的影响都一样;

2) RMSProp(假设同个参数变化不是固定的, 有时快, 有时慢)

RMSProp 对学习率的调整 是基于 之前训练的所有梯度, 但每个梯度对学习率调整的影响是可配置的; 为了能快速适应梯度变化, 应该把最近的梯度影响增大.

3) Adam(RMSProp + Momentum, Torch里面使用默认值就可以了)

4) Learning Rate Scheduling(learning rate adjusts on training duration)

在梯度很小变化的方向上, 平方根越来越小, 导致更新突然爆炸, 跑到梯度变化大的地方, 然后又慢慢恢复到正轨上;

考虑到随着训练时间变长, 梯度总会慢慢变小, 因此可以调整learning rate 随着时间而变小;

warm-up: learning rate 随着时间先变大再变小;

5) Summary(动量 m考虑了方向, \sigma 考虑了大小, \eta 考虑了时间)

深度学习基础:分类(Classification)

Q: 当把模型输出的标量scaler(1, 2, 3) 当作类别处理可以吗?

 A: 1, 2, 3 数字潜在也表达了他们之间的关系, 1和2 比较接近, 1和3 相差大, 这不能表达类别之间独立的关系;

One-hot Vector + softmax 来表达类别

类别之间的距离表达(Loss)

Minimizing Cross-Entropy is equivalent to maximizing likelihood(最大似然)

Torch 使用 cross-entropy 的时候会自动在输出层加上 softmax;

上图说明不同的 Loss 函数会影响训练的难易度; 左图会一开始就stuck因为梯度很平坦, 右图有很明显的梯度,训练起来更稳定快速.

Loss 函数的选择 也是一种改变 error surface 的方法.

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值