梯度下降法

损失参数:
J ( θ ) J(\theta) J(θ)
对参数朝着梯度下降的方向不断更新迭代直到收敛未知
θ i : = θ i − α ∂ ∂ θ j L ( θ ) \theta_{i}:=\theta_{i}-\alpha \frac{\partial}{\partial \theta_{j}}L(\theta) θi:=θiαθjL(θ)
当偏导数大于零时,即损失函数随着参数的增加而增加,这时候,参数应该减小才能使损失函数减小,故应减去一个正值 α ∂ ∂ θ j L ( θ ) \alpha \frac{\partial}{\partial \theta_{j}}L(\theta) αθjL(θ)
当偏导数小于0时,即损失函数随着参数的增加而减小,此时,参数应该增加,故减去一个负值 α ∂ ∂ θ j L ( θ ) \alpha \frac{\partial}{\partial \theta_{j}}L(\theta) αθjL(θ)
偏导数大于零,参数要减小
偏导数小于0,偏导数要增加
参数增加的方向和偏导数的符号相反
α \alpha α 是个很小的常数,用于调节增加减小的步长,因为参数变化太大反而会使损失函数增加
α \alpha α 若太小,梯度下降速度会很慢
α \alpha α 太大,损失函数可能会错过最小值点,不能收敛,甚至会发散

公式来源:
θ \theta θ处对损失函数进行泰勒展开, θ \theta θ是参数向量
L ( θ + △ θ ) ≅ L ( θ ) + △ θ T ∇ L ( θ ) L(\theta+\triangle \theta)\cong L(\theta)+\triangle \theta^T\nabla L(\theta) L(θ+θ)L(θ)+θTL(θ)
L ( θ + △ θ ) − L ( θ ) < 0 ⟹ △ θ T ∇ L ( θ ) < 0 L(\theta+\triangle \theta)-L(\theta)<0 \Longrightarrow\triangle \theta^T\nabla L(\theta)<0 L(θ+θ)L(θ)<0θTL(θ)<0
即参数增加的方向和偏导数的符号相反
△ θ = α ∇ L ( θ ) \triangle \theta=\alpha\nabla L(\theta) θ=αL(θ)
当目标函数满足 L − L i p s c h i t z L-Lipschitz LLipschitz条件时,即
∃ L , s . t .   ∣ ∣ ∇ L ( θ ) ∣ ∣ ≤ L \exist L,s.t.~||\nabla L(\theta)||\le L L,s.t. L(θ)L
取步长
α = 1 2 L \alpha=\frac{1}{2L} α=2L1
则损失函数可以收敛到局部极小值点
当目标函数是凸函数时,局部极小值点就是全局极小值点,故可以收敛到全局最优解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值