李宏毅Machine Learning学习笔记3 Gradient Descent

本文介绍了优化问题中梯度下降法的重要性,强调了学习率调优的技巧,包括可视化损失和参数更新的关系、自适应学习率策略如Adagrad。此外,还探讨了随机梯度下降和特征缩放对训练的影响,并从数学角度阐述了泰勒级数在梯度下降中的应用,以及梯度下降可能面临的局部最小值、鞍点和平台区的挑战。
摘要由CSDN通过智能技术生成

Home

optimization problem

θ=argminθL(θ) θ ∗ = arg ⁡ min θ L ( θ )

这里写图片描述

Tip 1: Tuning your Learning rates

这里写图片描述
- 1 small 如果步伐非常小 训练的时间会非常长。
- 2 large 如果步伐非常大 没有办法走到最低点。会在一个范围震荡
- 3 very large 如果步伐太大 loss很快就飞出去了。

visionlize loss 和 参数更新的关系。

这里写图片描述
- 1 learning rate 太小 loss下降非常慢
- 2 lerning rate 太大 loss下降非常快 但是很快就卡住。
- 3 learning rate 特别大 loss很快就飞出去了。

在做梯度下降的时候,最好把这个图画出来。否则你不知道这个梯度下降在哪里坏掉了。

Adaptive Learning Rates

通常leaning rate 随着参数的update会减小。

  • At the beginning, we are far from the destination, so we use larger learning rate(刚开始的时候,离最低点比较远,所以你的步伐需要大一点。)
  • After several epochs, we are close to the destination, so we reduce the learning rate(经过几次更新之后呢,已经比较靠近目标了,这时候就应该减小learning rate)
  • eg

ηt=η/t+1 η t = η / t + 1

Learning rate cannot be one-size-fits-all

Giving different parameters different learning rates

不同的参数有不同的learning rate)

Adagrad

这里写图片描述

w1w0η0δ0g0δ0=(g0)2 w 1 ← w 0 − η 0 δ 0 g 0 δ 0 = ( g 0 ) 2

w2w1η1δ1g1δ1=12[(g0)2+(g1)2] w 2 ← w 1 − η 1 δ 1 g 1 δ 1 = 1 2 [ ( g 0 ) 2 + ( g 1 ) 2 ]

w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值