Gradient Descent
优化问题
θ
∗
=
a
r
g
m
i
n
θ
L
(
θ
)
\theta^*=argmin_{\theta}L(\theta)
θ∗=argminθL(θ)
L
:
L:
L:Loss Function
θ
:
\theta:
θ:参数
θ
0
:
\theta^0:
θ0:随机设定
θ
0
=
[
θ
1
,
θ
2
,
.
.
.
,
θ
n
]
T
\theta^0=[\theta_1,\theta_2,...,\theta_n]^T
θ0=[θ1,θ2,...,θn]T
∇ L ( θ ) = [ ∂ L ( θ 1 ) ∂ θ 1 , ∂ L ( θ 2 ) ∂ θ 2 , . . . , ∂ L ( θ n ) ∂ θ n ] T {\nabla}L(\theta)=[\frac{{\partial}L(\theta_1)}{\partial\theta_1},\frac{{\partial}L(\theta_2)}{\partial\theta_2},...,\frac{{\partial}L(\theta_n)}{\partial\theta_n}]^T ∇L(θ)=[∂θ1∂L(θ1),∂θ2∂L(θ2),...,∂θn∂L(θn)]T
θ i = θ i − 1 − η ∇ L ( θ i − 1 ) \theta^i=\theta^{i-1}-\eta{\nabla}L(\theta^{i-1}) θi=θi−1−η∇L(θi−1)
η : \eta: η:学习率
调整学习率
1.要画Loss下降图。
2.自动调学习率的方法
Adagrad算法:
一开始,比较大;后面减小;每个不同的参数给不同的学习率。
w
1
=
w
0
−
η
0
σ
0
g
0
w^1=w^0-\frac{\eta_0}{\sigma^0}g^0
w1=w0−σ0η0g0
σ
0
=
(
g
0
)
2
\sigma^0=\sqrt{(g^0)^2}
σ0=(g0)2
w
2
=
w
1
−
η
1
σ
1
g
1
w^2=w^1-\frac{\eta_1}{\sigma^1}g^1
w2=w1−σ1η1g1
σ
1
=
1
2
[
(
g
0
)
2
+
(
g
1
)
2
]
\sigma^1=\sqrt{\frac{1}{2}[(g^0)^2+(g^1)^2]}
σ1=21[(g0)2+(g1)2]
.
.
.
...
...
w
t
+
1
=
w
t
−
η
t
σ
t
g
t
w^{t+1}=w^t-\frac{\eta_t}{\sigma^t}g^t
wt+1=wt−σtηtgt
σ
t
=
1
t
+
1
∑
i
=
0
t
(
g
i
)
2
\sigma^t=\sqrt{\frac{1}{t+1}\sum^t_{i=0}(g^i)^2}
σt=t+11∑i=0t(gi)2
令
η
t
=
η
t
+
1
\eta^t=\frac{\eta}{\sqrt{t+1}}
ηt=t+1η,则:
w
t
+
1
=
w
t
−
η
∑
i
=
0
t
(
g
i
)
2
g
t
w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum^t_{i=0}(g^i)^2}}g^t
wt+1=wt−∑i=0t(gi)2ηgt
Stochastic Gradient Descent(随机梯度下降):
普通梯度下降:
L
=
∑
n
(
y
^
n
−
(
b
+
∑
w
i
x
i
n
)
)
2
L=\sum_n({\widehat{y}}^n-(b+\sum{w_ix_i^n}))^2
L=n∑(y
n−(b+∑wixin))2
θ
i
=
θ
i
−
1
−
η
∇
L
(
θ
i
−
1
)
\theta^i=\theta^{i-1}-\eta{\nabla}L(\theta^{i-1})
θi=θi−1−η∇L(θi−1)
随机梯度下降:
随机选一个样本
x
n
x^n
xn,每个样本都更新一次参数
L
n
=
∑
n
(
y
^
n
−
(
b
+
∑
w
i
x
i
n
)
)
2
L^n=\sum_n({\widehat{y}}^n-(b+\sum{w_ix_i^n}))^2
Ln=n∑(y
n−(b+∑wixin))2
L
n
L^n
Ln:对一个样本的Loss。
θ
i
=
θ
i
−
1
−
η
∇
L
n
(
θ
i
−
1
)
\theta^i=\theta^{i-1}-\eta{\nabla}L^n(\theta^{i-1})
θi=θi−1−η∇Ln(θi−1)
Feature Scaling(特征缩放)
将不同的feature的scale调到差不多。
原因:做参数更新时效率较高。
问题:
(1)局部最小值。
(2)鞍点。
(3)在高原地区比较慢。