梯度下降对比理解

winner8881

已于 2022-10-12 21:08:05 修改

阅读量414

点赞数

分类专栏：机器学习文章标签：机器学习深度学习算法

于 2022-10-12 20:43:03 首次发布

本文链接：https://blog.csdn.net/qq_22866291/article/details/127289788

版权

31 篇文章 2 订阅

订阅专栏

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

二元函数和多元函数梯度下降示意图依次如下：
二元函数梯度下降

多元函数梯度下降

函数对比	普通函数： $f(x)=x^2$	损失函数： $l(\theta)=\theta_1^2+\theta_2^2+...$
有极值点的充分	在该点处 $f^{'}(x)=0$ ，且在 $f^{'}(x)=0$ 处左右两旁导数符号相反。	参数空间正定（矩阵正定可以参考笔者二次型和矩阵正定的意义）
求极值工具	梯度下降	梯度下降
达成的目标	求函数最小值，一般用于解决最优化问题	求loss最小值，loss最小说明此时模型最优；如在分类问题可采用交叉熵loss，说明此时该模型达到参数最优，即在该参数下系统最为有序，也即熵值最小（熵可以参见笔者机器学习、深度学习关于熵你所需要知道的一切；在回归问题中采用均方误差loss，说明参数估计已经达到了极大似然估计的最佳）
迭代策略	$x_{next}=x_{now}-f^{'}(x_{now})\times \Delta x$	$\theta_{next}=\theta_{now}-l^{'}(\theta_{now})\times \Delta \theta$
常用函数	见高等数学系列，不胜枚举	sigmoid、tanh、relu、一次函数（神经网络系数、MAE）、二次函数（MSE）、对数函数（logloss）