梯度下降法

最新推荐文章于 2024-10-06 15:57:40 发布

qq_41802245

最新推荐文章于 2024-10-06 15:57:40 发布

阅读量120

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41802245/article/details/104547649

版权

损失参数：
$J(\theta)$
对参数朝着梯度下降的方向不断更新迭代直到收敛未知
$\theta_{i}:=\theta_{i}-\alpha \frac{\partial}{\partial \theta_{j}}L(\theta)$
当偏导数大于零时，即损失函数随着参数的增加而增加，这时候，参数应该减小才能使损失函数减小，故应减去一个正值 $\alpha \frac{\partial}{\partial \theta_{j}}L(\theta)$
当偏导数小于0时，即损失函数随着参数的增加而减小，此时，参数应该增加，故减去一个负值 $\alpha \frac{\partial}{\partial \theta_{j}}L(\theta)$
偏导数大于零，参数要减小
偏导数小于0，偏导数要增加
参数增加的方向和偏导数的符号相反
$\alpha$ 是个很小的常数，用于调节增加减小的步长，因为参数变化太大反而会使损失函数增加
$\alpha$ 若太小，梯度下降速度会很慢
$\alpha$ 太大，损失函数可能会错过最小值点，不能收敛，甚至会发散

公式来源：
在 $\theta$ 处对损失函数进行泰勒展开， $\theta$ 是参数向量
$L(\theta+\triangle \theta)\cong L(\theta)+\triangle \theta^T\nabla L(\theta)$
$L(\theta+\triangle \theta)-L(\theta)<0 \Longrightarrow\triangle \theta^T\nabla L(\theta)<0$
即参数增加的方向和偏导数的符号相反
令 $\triangle \theta=\alpha\nabla L(\theta)$
当目标函数满足 $L - L i p s c h i t z$ 条件时，即
$\exist L,s.t.~||\nabla L(\theta)||\le L$
取步长
$\alpha=\frac{1}{2L}$
则损失函数可以收敛到局部极小值点
当目标函数是凸函数时，局部极小值点就是全局极小值点，故可以收敛到全局最优解。