损失参数:
J
(
θ
)
J(\theta)
J(θ)
对参数朝着梯度下降的方向不断更新迭代直到收敛未知
θ
i
:
=
θ
i
−
α
∂
∂
θ
j
L
(
θ
)
\theta_{i}:=\theta_{i}-\alpha \frac{\partial}{\partial \theta_{j}}L(\theta)
θi:=θi−α∂θj∂L(θ)
当偏导数大于零时,即损失函数随着参数的增加而增加,这时候,参数应该减小才能使损失函数减小,故应减去一个正值
α
∂
∂
θ
j
L
(
θ
)
\alpha \frac{\partial}{\partial \theta_{j}}L(\theta)
α∂θj∂L(θ)
当偏导数小于0时,即损失函数随着参数的增加而减小,此时,参数应该增加,故减去一个负值
α
∂
∂
θ
j
L
(
θ
)
\alpha \frac{\partial}{\partial \theta_{j}}L(\theta)
α∂θj∂L(θ)
偏导数大于零,参数要减小
偏导数小于0,偏导数要增加
参数增加的方向和偏导数的符号相反
α
\alpha
α 是个很小的常数,用于调节增加减小的步长,因为参数变化太大反而会使损失函数增加
α
\alpha
α 若太小,梯度下降速度会很慢
α
\alpha
α 太大,损失函数可能会错过最小值点,不能收敛,甚至会发散
公式来源:
在
θ
\theta
θ处对损失函数进行泰勒展开,
θ
\theta
θ是参数向量
L
(
θ
+
△
θ
)
≅
L
(
θ
)
+
△
θ
T
∇
L
(
θ
)
L(\theta+\triangle \theta)\cong L(\theta)+\triangle \theta^T\nabla L(\theta)
L(θ+△θ)≅L(θ)+△θT∇L(θ)
L
(
θ
+
△
θ
)
−
L
(
θ
)
<
0
⟹
△
θ
T
∇
L
(
θ
)
<
0
L(\theta+\triangle \theta)-L(\theta)<0 \Longrightarrow\triangle \theta^T\nabla L(\theta)<0
L(θ+△θ)−L(θ)<0⟹△θT∇L(θ)<0
即参数增加的方向和偏导数的符号相反
令
△
θ
=
α
∇
L
(
θ
)
\triangle \theta=\alpha\nabla L(\theta)
△θ=α∇L(θ)
当目标函数满足
L
−
L
i
p
s
c
h
i
t
z
L-Lipschitz
L−Lipschitz条件时,即
∃
L
,
s
.
t
.
∣
∣
∇
L
(
θ
)
∣
∣
≤
L
\exist L,s.t.~||\nabla L(\theta)||\le L
∃L,s.t. ∣∣∇L(θ)∣∣≤L
取步长
α
=
1
2
L
\alpha=\frac{1}{2L}
α=2L1
则损失函数可以收敛到局部极小值点
当目标函数是凸函数时,局部极小值点就是全局极小值点,故可以收敛到全局最优解。