机器学习(李宏毅)lecture02学习笔记(Gradient Descent)

Gradient Descent

优化问题

θ ∗ = a r g m i n θ L ( θ ) \theta^*=argmin_{\theta}L(\theta) θ=argminθL(θ)
L : L: L:Loss Function
θ : \theta: θ:参数

θ 0 : \theta^0: θ0:随机设定
θ 0 = [ θ 1 , θ 2 , . . . , θ n ] T \theta^0=[\theta_1,\theta_2,...,\theta_n]^T θ0=[θ1,θ2,...,θn]T

∇ L ( θ ) = [ ∂ L ( θ 1 ) ∂ θ 1 , ∂ L ( θ 2 ) ∂ θ 2 , . . . , ∂ L ( θ n ) ∂ θ n ] T {\nabla}L(\theta)=[\frac{{\partial}L(\theta_1)}{\partial\theta_1},\frac{{\partial}L(\theta_2)}{\partial\theta_2},...,\frac{{\partial}L(\theta_n)}{\partial\theta_n}]^T L(θ)=[θ1L(θ1),θ2L(θ2),...,θnL(θn)]T

θ i = θ i − 1 − η ∇ L ( θ i − 1 ) \theta^i=\theta^{i-1}-\eta{\nabla}L(\theta^{i-1}) θi=θi1ηL(θi1)

η : \eta: η:学习率

调整学习率

1.要画Loss下降图。
在这里插入图片描述
2.自动调学习率的方法

Adagrad算法:
一开始,比较大;后面减小;每个不同的参数给不同的学习率。

w 1 = w 0 − η 0 σ 0 g 0 w^1=w^0-\frac{\eta_0}{\sigma^0}g^0 w1=w0σ0η0g0
σ 0 = ( g 0 ) 2 \sigma^0=\sqrt{(g^0)^2} σ0=(g0)2
w 2 = w 1 − η 1 σ 1 g 1 w^2=w^1-\frac{\eta_1}{\sigma^1}g^1 w2=w1σ1η1g1
σ 1 = 1 2 [ ( g 0 ) 2 + ( g 1 ) 2 ] \sigma^1=\sqrt{\frac{1}{2}[(g^0)^2+(g^1)^2]} σ1=21[(g0)2+(g1)2]
. . . ... ...
w t + 1 = w t − η t σ t g t w^{t+1}=w^t-\frac{\eta_t}{\sigma^t}g^t wt+1=wtσtηtgt
σ t = 1 t + 1 ∑ i = 0 t ( g i ) 2 \sigma^t=\sqrt{\frac{1}{t+1}\sum^t_{i=0}(g^i)^2} σt=t+11i=0t(gi)2

η t = η t + 1 \eta^t=\frac{\eta}{\sqrt{t+1}} ηt=t+1 η,则:
w t + 1 = w t − η ∑ i = 0 t ( g i ) 2 g t w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum^t_{i=0}(g^i)^2}}g^t wt+1=wti=0t(gi)2 ηgt

Stochastic Gradient Descent(随机梯度下降):

普通梯度下降:
L = ∑ n ( y ^ n − ( b + ∑ w i x i n ) ) 2 L=\sum_n({\widehat{y}}^n-(b+\sum{w_ix_i^n}))^2 L=n(y n(b+wixin))2
θ i = θ i − 1 − η ∇ L ( θ i − 1 ) \theta^i=\theta^{i-1}-\eta{\nabla}L(\theta^{i-1}) θi=θi1ηL(θi1)
随机梯度下降:
随机选一个样本 x n x^n xn,每个样本都更新一次参数
L n = ∑ n ( y ^ n − ( b + ∑ w i x i n ) ) 2 L^n=\sum_n({\widehat{y}}^n-(b+\sum{w_ix_i^n}))^2 Ln=n(y n(b+wixin))2
L n L^n Ln:对一个样本的Loss。
θ i = θ i − 1 − η ∇ L n ( θ i − 1 ) \theta^i=\theta^{i-1}-\eta{\nabla}L^n(\theta^{i-1}) θi=θi1ηLn(θi1)

Feature Scaling(特征缩放)

将不同的feature的scale调到差不多。
在这里插入图片描述
原因:做参数更新时效率较高。

问题:

(1)局部最小值。
(2)鞍点。
(3)在高原地区比较慢。

Demo:

https://blog.csdn.net/Xiao_yanling/article/details/89300638

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值