最速下降法及案例分析(含MATLAB代码)

SJ.Yang

已于 2022-07-09 21:04:14 修改

阅读量9.7k

点赞数 5

文章标签： matlab 开发语言

于 2022-07-09 20:51:03 首次发布

本文链接：https://blog.csdn.net/qq_57510464/article/details/125694790

版权

这里介绍的主要是二维的案例

一、最速下降法的背景与应用
二、最速下降法的基本原理
- 最速下降法案例分析
四、最速下降法与梯度下降法的区别
五、最速下降法的缺点
案例分析的代码

一、最速下降法的背景与应用

最速下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。¹

二、最速下降法的基本原理

对于给定的函数 $f (x)$ 由泰勒展开得： $f(x)=f(x_0)+\nabla f(x)(x-x_0)+\frac{\nabla f(x)(x-x_0)}{2!}+... \tag{1}$ 取它的第二阶展开，则 $f(x)\approx f(x_0)+\nabla f(x)(x-x_0) \tag{2}$

在这里插入图片描述

如上图所示 $\nabla f$ 为梯度方向， $-\nabla f$ 为负梯度方向(反向梯度)。所以我们就有 $x-x_0=-\alpha *\nabla f(x_0)\tag{3}$ 那么就得到迭代公式 $x_{k+1}=x_k-\alpha *\nabla f(x_k),(\alpha>0)\tag{4}$
其中 $\alpha$ 称为学习率。也可以理解为步长， $\alpha$ 的不同，会导致迭代次数不同，收敛速度就不同。

最速下降法案例分析

下面取一个例子 $f(x)=x^2$ , $\nabla f(x)=2x$ , $x_0=10,\alpha=0.2$ 由迭代公式(4)有：

${x_k}$	$x_{k+1}=x_k-\alpha *\nabla f(x_k)$	$\nabla f(x_k)$
$x_1$	$x_1=x_0-\alpha *\nabla f(x_0)=6$	$\nabla f(x_1)$ =12
$x_2$	$x_2=x_1-\alpha *\nabla f(x_1)=3.6$	$\nabla f(x_2)$ =7.2
$x_3$	$x_3=x_2-\alpha *\nabla f(x_2)=2.16$	$\nabla f(x_3)$ =4.32
…	…	…

按照这样迭代下去，只要给定一个精度值 $\epsilon$ ,使得 $\nabla f(x_k)$ < $\epsilon$ ,就可以了。如下图，它是越来越靠近最低点的。
在这里插入图片描述

通过观察下这个图可以看到，学习率 $\alpha$ 取的不同，迭代次数也会不同，选择合适的学习率，收敛速度会更快。

在这里插入图片描述

四、最速下降法与梯度下降法的区别

最速下降法与梯度下降法的主要区别在最速下降法有学习率 $\alpha$ ，而梯度下降法没有(就是 $\alpha$ 恒等等于1，是不变的)，梯度下降法默认负梯度方向就是目标函数值下降最快的方向。即 $\triangle x=-\nabla f(x)$ ,故每次都将自变量沿着负梯度方向移动单位步长，目标函数值就会逐渐收敛。但是收敛速度非常大的程度地依赖于其Hessian矩阵的条件数²。

五、最速下降法的缺点

某点的负梯度方向，通常只是在该点附近才具有这种最速下降的性质。在一般情况下，当用最速下降法寻找极小点时，在开始几步目标函数下降较快；但在接近极小点时，收敛速度长久不理想了。在这里插入图片描述
通过上面案例分析也可以清晰的看到，在开始时都是收敛比较快(图像上的点比较稀疏)，而在靠近极小值时，收敛比较慢。从图像是上看密密麻麻的。如果当目标函数的等值线为比较扁平的椭圆时，那收敛就更慢了。所以，在实用中常用最速下降法和其他方法联合应用，在前期使用最速下降法，而在接近极小值点时，可以改用收敛较快的其他方法。
还有就是最速下降法只能得到局部最优，也就是说当你的函数有多个极值时。函数值是否最小与于初始值 $x_0$ 的选举有关。

案例分析的代码

clear,clc
%f=x^2;%df=2*x;
x0=15;                %初始值
el=0.0001;            %设置精度
n=0.9;                %学习率
x1=x0-n*2*x0;         
k=1;
while abs(2*x1)>el
    x0=x1;
    x1=x0-n*2*x0;
    k=k+1;            %k为迭代次数
end
xd=2*x1               
k
%%%%%%%%%%%%%%%%%%%%%%下面是给图像标箭头
while abs(2*x1)>el
    x0=x1;
    x1=x0-n*2*x0;
    k=k+1;            %k为迭代次数
end
xd=2*x1               
k
x11(1)=10;
for i=1:k
    x11(i+1)=x11(i)-n*2*x11(i);
end
x11
y=x11.^2
scatter(x11,y,'k')
hold on
t=-10:0.01:10;
y1=t.^2;
plot(t,y1,'b')
for i=1:k
    PlotLineArrow(gca,[x11(i),x11(i+1)],[y(i),y(i+1)],'g','r')
end

下面是画箭头的m.文件³。

function PlotLineArrow(obj, x, y, markerColor, lineColor)
% 绘制带箭头的曲线
% 绘制散点图
plot(x, y, 'o', 'Color', markerColor, 'MarkerFaceColor', markerColor);
% 获取 Axes 位置
posAxes = get(obj, 'Position');
posX = posAxes(1);
posY = posAxes(2);
width = posAxes(3);
height = posAxes(4);
% 获取 Axes 范围
limX = get(obj, 'Xlim');
limY = get(obj, 'Ylim');
minX = limX(1);
maxX = limX(2);
minY = limY(1);
maxY = limY(2);
% 转换坐标
xNew = posX + (x - minX) / (maxX - minX) * width;
yNew = posY + (y - minY) / (maxY - minY) * height;
% 画箭头
annotation('arrow', xNew, yNew, 'color', lineColor);

来自百度百科 ↩︎
来自知乎作者为“一土木蒙” ↩︎
来自CSDN的作者CoderMan_1012 ↩︎

SJ.Yang

关注

5
点赞
踩
85

收藏

觉得还不错? 一键收藏
0
评论
最速下降法及案例分析(含MATLAB代码)

最速下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。1对于给定的函数f(x)f(x)f(x)由泰勒展开得：f(x)=f(x0)+∇f(x)(x−x0)+∇f(x)(x−x0)
复制链接

扫一扫