梯度下降法求解极值、近似根

本文介绍了梯度下降法的概念和意义,它是一种用于找到函数最小值的一阶最优化算法。通过类比下山过程,解释了梯度下降法如何确定下降方向。文章讨论了批量、小批量和随机梯度下降法的差异,并通过实例展示了手工使用梯度下降法求解极值和在Excel中求解近似根的方法。最后,使用Jupyter进行线性回归问题的梯度下降法求解,并与最小二乘法进行比较。
摘要由CSDN通过智能技术生成

一、简介

(一)意义

  • 微分:
    • 函数图像中,某点的切线的斜率/函数的变化率
    • 分为单变量微分与多变量微分
  • 梯度下降法:
    • 主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值,是一个一阶最优化算法,通常也称为最速下降法。
    • 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率
    • 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向

(二)描述

  • 梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个人被困在山上,需要从山上下来(i.e. 找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着山的高度下降的地方走,同理,如果我们的目标是上山,也就是爬到山顶,那么此时应该是朝着最陡峭的方向往上走。然后每走一段距离,都反复采用同一个方法,最后就能成功的抵达山谷。
    在这里插入图片描述

  • 我们同时可以假设这座山最陡峭的地方是无法通过肉眼立马观察出来的,而是需要一个复杂的工具来测量,同时,这个人此时正好拥有测量出最陡峭方向的能力。所以,此人每走一段距离,都需要一段时间来测量所在位置最陡峭的方向,这是比较耗时的。那么为了在太阳下山之前到达山底,就要尽可能的减少测量方向的次数。这是一个两难的选择,如果测量的频繁,可以保证下山的方向是绝对正确的,但又非常耗时,如果测量的过少,又有偏离轨道的风险。所以需要找到一个合适的测量方向的频率,来确保下山的方向不错误,同时又不至于耗时太多!

  • 首先,我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值,也就是山底。根据之前的场景假设,最快的下山的方式就是找到当前位置最陡峭的方向,然后沿着此方向向下走,对应到函数中,就是找到给定点的梯度 ,然后朝着梯度相反的方向,就能让函数值下降的最快!因为梯度的方向就是函数之变化最快的方向(在后面会详细解释)
    所以,我们重复利用这个方法,反复求取梯度,最后就能到达局部的最小值,这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向,也就是场景中测量方向的手段。那么为什么梯度的方向就是最陡峭的方向呢?

  • 根据梯度的意义梯度实际上就是多变量微分的一般化。
    例如:在这里插入图片描述
    我们可以看到,梯度就是分别对每个变量进行微分,然后用逗号分割开,梯度是用<>包括起来,说明梯度其实一个向量。这也就说明了为什么我们需要千方百计的求取梯度!我们需要到达山底,就需要在每一步观测到此时最陡峭的地方,梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,这正是我们所需要的。所以我们只要沿着梯度的方向一直走,就能走到局部的最低点!

(三)梯度下降算法的数学解释

  • 数学公式:
    在这里插入图片描述

J是关于Θ的一个函数,我们当前所处的位置为Θ0点,要从这个点走到J的最小值点,也就是山底。首先我们先确定前进的方向,也就是梯度的反向,然后走一段距离的步长,也就是α,走完这个段步长,就到达了Θ1这个点!
注意:α(步长/学习率)取值不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点。梯度前加一个负号,意味着朝着梯度相反的方向前进。

(四)三种梯度下降法

  • 批量梯度下降法(Batch Gradient Descent, BGD):批量梯度下降法在计算优化函数的梯度时利用全部样本数据,n表示总的样本数。
    计算公式:
    在这里插入图片描述
    迭代公式:
    在这里插入图片描述
  • 小批量梯度下降法(Mini-batch Gradient Descent, MBGD)
    随机梯度下降法在计算优化函数的梯度时利用随机选择的一个样本数据
    梯度计算公式:
    在这里插入图片描述
    迭代公式:
    在这里插入图片描述
  • 随机梯度下降法(Stochastic Gradient Descent, SGD)
    小批量梯度下降法在计算优化函数的梯度时利用随机选择的一部分样本数据,k表示选取样本的数目
    梯度计算公式:
    在这里插入图片描述
    迭代公式为:在这里插入图片描述
  • 三种方式的比较
BGD(批量) SGD(随机) MBGD(小批量)
优点 非凸函数可保证收敛至全局最优解 计算速度快 计算速度快,收敛稳定
缺点 计算速度缓慢,不允许新样本中途进入 计算结果不易收敛,可能会陷入局部最优解中 ——

二、梯度下降法手工求解极值

(一)题目

在这里插入图片描述

(二)计算过程

1.设置初始点及学习率

  • 初始点: x 0 = ( x 1 0 , x 2 0 ) T = ( 3 , 2 ) T x^0=(x_1^0,x_2^0)^T=(3,2)^T x0=(x10,x20)T=(3,2)T
  • 学习率: λ λ λ

初始点和学习率是自己随意设置的,这里学习率就不预设值,当然也可以预先设置学习率的值,只不过取值不是很好确定,取值取得不是很好,可能要迭代很多次

2.计算初始点的梯度

  • 梯度计算: ▽ f ( x ) = ( 2 3 x 1 , x 2 ) ▽f(x)=(\frac{2}{3}x_1,x_2) f(x)=(32x1,x2)
  • 初始点的梯度(将 x 0 x^0 x0的值代入上面的梯度计算): ▽ f ( x 0 ) = ( 2 , 2 ) ▽f(x^0)=(2,2) f(x0)=(2,2)

3.更新迭代公式

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值