梯度下降法

最新推荐文章于 2023-03-08 14:40:22 发布

baidu-liuming

最新推荐文章于 2023-03-08 14:40:22 发布

阅读量301

点赞数

分类专栏：机器学习机器学习文章标签：梯度下降损失函数代价函数

本文链接：https://blog.csdn.net/fisherming/article/details/79668002

版权

机器学习同时被 2 个专栏收录

40 篇文章 3 订阅

订阅专栏

机器学习

30 篇文章 8 订阅

订阅专栏

文章目录

- 梯度下降

梯度下降

梯度下降的思想

梯度下降就是用来求损失函数最小值的算法，我们将使用梯度下降算法来求出损失函数 $J(\theta_0,\theta_1)$ 的最小值。
梯度下降思想：首先我们随机选择一个参数的组合 $J(\theta_0,\theta_1, ... ,\theta_n)$ ，计算损失函数（或代价函数），然后我们寻找下一个能让损失函数（或代价函数）下降最多的参数组合。重复上述过程，直至找到一个局部最小值。
注：选择不同的初始参数组合，可能会找到不同的局部最小值。
这里写图片描述

过程

批量梯度下降算法的公式为：
repeat until convergence{
$\theta_j:=\theta_j-a\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1)\ (for\ j=0 \ and \ j=1)$
}
此处假设参数只有两个 $\theta_0$ 和 $\theta_1$ 。 $\alpha$ 表示学习率， $\alpha$ 决定了每次能让代价函数下降程度最大方向迈下的步子有多大。
在梯度下降算法中需要同时更新 $\theta_0$ 和 $\theta_1$ 。
$:=\theta_0-\alpha\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1)$ $:=\theta_1-\alpha\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1)$ $\theta_0 :=temp0$ $\theta_1 :=temp1$

几个问题

偏导数问题
对于只有一个变量的方程式来说，偏导数就是导数。在某一点的导数表示该点切线的斜率。

因此，当初始点在最小值点的右边， $\theta$ 的更新值不断减小；当初始点在最小值的左边， $\theta$ 的更新值不断增加。最终是要不断靠近最小值的点。
$\alpha$ 学习率的问题
$\alpha$ 太小，需要很多步才能找到局部最低点
$\alpha$ 太大，每一步迭代会因为步子太大而越过最低点，甚至导致无法收敛。
初始点为局部最小值点
如果初始点恰好为局部最小值点，此时的导数为0，也就是切线的斜率为0。所以，更新 $\theta$ 的值不会有变化。此时， $\theta$ 也就是我们需要的参数。
为什么不需要更新 $\alpha$ 的值

根据上图可知，在距离局部最小值较远的时候，切线的斜率是较大的，因此，对应$\theta$的改变也较大，也就下降的快一些；而接近局部最小值点的时候，切线的斜率越小，对应的$\theta$的改变越小，也就是下降的速度变慢了。因此，不需要改变$\alpha$的值，导致$\frac{\partial}{\partial\theta}J(\theta)$距离局部最小值点远的地方下降的快一些，距离局部最小值近的地方下降的慢一些(越接近目标，越要小心翼翼)。 >理解： >1.偏导数：因为从某一个点出发，让其开始变化，变化方向360°有无数个方向，而切线方向最快。 >2.每次更新：每次更新一个$\theta_i$时，其他参数都为常数，当前函数$\theta_i$为自变量，$J(\theta_i)$为因变量。只求得当前$\theta_i$的怎么变化，使$J(\theta_i)$朝着最小值的方向变化。求得所有的参数使$J(\theta_i)$朝着最小值的方向变化的更新值，并同时更新所有参数。

baidu-liuming

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法

梯度下降梯度下降的思想过程几个问题梯度下降梯度下降的思想梯度下降就是用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数J(θ0,θ1)J(θ0,θ1)J(\theta_0,\theta_1)的最小值。梯度下降思想：首先我们随机选择一个参数的组合J(θ0,θ1,...,θn)J(θ0,θ1,...,θn)J(\theta_0,\t...
复制链接

扫一扫