Jupyter中的Python矩阵基本运算

最新推荐文章于 2023-02-26 15:02:45 发布

小熊打饼干

最新推荐文章于 2023-02-26 15:02:45 发布

阅读量1.2k

点赞数 1

分类专栏：学习文章标签： python 人工智能算法机器学习

本文链接：https://blog.csdn.net/TBMmagic/article/details/115449676

版权

本文详细介绍了梯度下降法的概念、意义和数学解释，并通过实例展示了如何手工求解极值。文章还探讨了批量、小批量和随机梯度下降法的差异，以及如何在Excel和Jupyter中应用梯度下降法解决线性回归问题。

摘要由CSDN通过智能技术生成

一、简介

（一）意义

微分：
- 函数图像中，某点的切线的斜率/函数的变化率
- 分为单变量微分与多变量微分
梯度下降法
- 主要目的是通过迭代找到目标函数的最小值，或者收敛到最小值，是一个一阶最优化算法，通常也称为最速下降法。
- 在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率
- 在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向

（二）描述

梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景：一个人被困在山上，需要从山上下来（i.e.找到山的最低点，也就是山谷）。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是，以他当前的所处位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走，同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷。

在这里插入图片描述

我们同事可以假设这座山最陡峭的地方是无法通过肉眼立马观察出来的，而是需要一个复杂的工具来测量，同时，这个人此时正好拥有测量出最陡峭方向的能力。所以，此人每走一段距离，都需要一段时间来测量所在位置最陡峭的方向，这是比较耗时的。那么为了在太阳下山之前到达山底，就要尽可能的减少测量方向的次数。这是一个两难的选择，如果测量的频繁，可以保证下山的方向是绝对正确的，但又非常耗时，如果测量的过少，又有偏离轨道的风险。所以需要找到一个合适的测量方向的频率，来确保下山的方向不错误，同时又不至于耗时太多！
首先，我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值，也就是山底。根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数值变化最快的方向。所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。那么为什么梯度的方向就是最陡峭的方向呢？
根据梯度的意义梯度实际上就是多变量微分的一般化。

例如：

在这里插入图片描述

我们可以看到，梯度就是分别对每个变量进行微分，然后用逗号分割开，梯度是用<>包括起来，说明梯度其实是一个向量。这也就说明了为什么我们需要千方百计的求取梯度！我们需要到达山底，就需要在每一步观测到此时最陡峭的地方，梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，这正是我们所需要的。所以我们只要沿着梯度的方向一直走，就能走到局部的最低点！

（三）梯度下降算法的数学解释

数学公式：

在这里插入图片描述

J是关于Θ的一个函数，我们当前所处的位置为Θ0点，要从这个点走到J的最小值点，也就是山底。首先我们先确定前进的方向，也就是梯度的反向，然后走一段距离的步长，也就是α，走完这个段步长，就到达了Θ1这个点！
注意：α（步长/学习率）取值不能太大也不能太小，太小的话，可能导致迟迟走不到最低点，太大的话，会导致错过最低点。梯度前加一个负号，意味着朝着梯度相反的方向前进。

（四）三种梯度下降法

批量梯度下降法：批量梯度下降法在计算优化函数的梯度时利用全部样本数据，n表示总的样本数。

计算公式：

在这里插入图片描述

迭代公式：

在这里插入图片描述

小批量梯度下降法，随机梯度下降法在计算优化函数的梯度时利用随机选择的一个样本数据

梯度计算公式：

在这里插入图片描述

迭代公式：

在这里插入图片描述

随机梯度下降法

小批量梯度下降法在计算优化函数的梯度时利用随机选择的一部分样本数据，k表示选取样本的数目

梯度计算公式：

在这里插入图片描述

迭代公式：

在这里插入图片描述

三种方式的比较

	BGD（批量）	SGD（随机）	MBGD（小批量）
优点	非凸函数可保证收敛至全局最优解	计算速度快	计算速度快，收敛稳定
缺点	计算速度缓慢，不允许新样本中途进入	计算结果不易收敛，可能会陷入局部最优解中	——