Jupyter中的Python矩阵基本运算

本文详细介绍了梯度下降法的概念、意义和数学解释,并通过实例展示了如何手工求解极值。文章还探讨了批量、小批量和随机梯度下降法的差异,以及如何在Excel和Jupyter中应用梯度下降法解决线性回归问题。
摘要由CSDN通过智能技术生成

一、简介

(一)意义

  • 微分:
    • 函数图像中,某点的切线的斜率/函数的变化率
    • 分为单变量微分与多变量微分
  • 梯度下降法
    • 主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值,是一个一阶最优化算法,通常也称为最速下降法。
    • 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率
    • 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向

(二)描述

  • 梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个人被困在山上,需要从山上下来(i.e.找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处位置为基准,寻找这个位置最陡峭的地方,然后朝着山的高度下降的地方走,同理,如果我们的目标是上山,也就是爬到山顶,那么此时应该是朝着最陡峭的方向往上走。然后每走一段距离,都反复采用同一个方法,最后就能成功的抵达山谷。

在这里插入图片描述

  • 我们同事可以假设这座山最陡峭的地方是无法通过肉眼立马观察出来的,而是需要一个复杂的工具来测量,同时,这个人此时正好拥有测量出最陡峭方向的能力。所以,此人每走一段距离,都需要一段时间来测量所在位置最陡峭的方向,这是比较耗时的。那么为了在太阳下山之前到达山底,就要尽可能的减少测量方向的次数。这是一个两难的选择,如果测量的频繁,可以保证下山的方向是绝对正确的,但又非常耗时,如果测量的过少,又有偏离轨道的风险。所以需要找到一个合适的测量方向的频率,来确保下山的方向不错误,同时又不至于耗时太多!

  • 首先,我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值,也就是山底。根据之前的场景假设,最快的下山的方式就是找到当前位置最陡峭的方向,然后沿着此方向向下走,对应到函数中,就是找到给定点的梯度,然后朝着梯度相反的方向,就能让函数值下降的最快!因为梯度的方向就是函数值变化最快的方向。所以,我们重复利用这个方法,反复求取梯度,最后就能到达局部的最小值,这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向,也就是场景中测量方向的手段。那么为什么梯度的方向就是最陡峭的方向呢?

  • 根据梯度的意义梯度实际上就是多变量微分的一般化。

    例如:

在这里插入图片描述

我们可以看到,梯度就是分别对每个变量进行微分,然后用逗号分割开,梯度是用<>包括起来,说明梯度其实是一个向量。这也就说明了为什么我们需要千方百计的求取梯度!我们需要到达山底,就需要在每一步观测到此时最陡峭的地方,梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,这正是我们所需要的。所以我们只要沿着梯度的方向一直走,就能走到局部的最低点!

(三)梯度下降算法的数学解释

数学公式:

在这里插入图片描述

J是关于Θ的一个函数,我们当前所处的位置为Θ0点,要从这个点走到J的最小值点,也就是山底。首先我们先确定前进的方向,也就是梯度的反向,然后走一段距离的步长,也就是α,走完这个段步长,就到达了Θ1这个点!
注意:α(步长/学习率)取值不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点。梯度前加一个负号,意味着朝着梯度相反的方向前进。

(四)三种梯度下降法

  • 批量梯度下降法:批量梯度下降法在计算优化函数的梯度时利用全部样本数据,n表示总的样本数。

计算公式:

在这里插入图片描述

迭代公式:

在这里插入图片描述

  • 小批量梯度下降法,随机梯度下降法在计算优化函数的梯度时利用随机选择的一个样本数据

梯度计算公式:

在这里插入图片描述

迭代公式:

在这里插入图片描述

  • 随机梯度下降法

小批量梯度下降法在计算优化函数的梯度时利用随机选择的一部分样本数据,k表示选取样本的数目

梯度计算公式:

在这里插入图片描述

迭代公式:

在这里插入图片描述

  • 三种方式的比较
BGD(批量) SGD(随机) MBGD(小批量)
优点 非凸函数可保证收敛至全局最优解 计算速度快 计算速度快,收敛稳定
缺点 计算速度缓慢,不允许新样本中途进入 计算结果不易收敛,可能会陷入局部最优解中 ——

二、梯度下降法手工求解极值

(一)题目

在这里插入图片描述

(二)计算过程

1、设置初始点及学习率

初始点:
x 0 = ( x 1 0 , x 2 0 ) T = ( 3 , 2 ) T x^0 = (x_1^0,x^0_2)^T = (3,2)T x0=(x10,x20)T=(3,2)T
学习率:λ

初始点和学习率是自己随意设置的,这里学习率就不预设值,当然也可以预先设置学习率的值,只不过取值不是很好确定,取值取得不是很好,可能要迭代很多次

2、计算初始点的梯度

梯度计算:
▽ f ( x ) = ( 3 2 x 1 , x 2 ) ▽f(x) = (\frac{3}{2}x_1,x_2) f(x)=(23x1,x2)
初始点的梯度(将x^0的值代入上面的梯度计算):
▽ f ( x 0 ) = ( 2 , 2 ) ▽f(x^0) = (2,2) f(x0)=(2,2)
更新迭代公式
f ( x 1 ) = f ( x 0 , − λ ▽ f ( x 0 ) ) = 10 3 λ 2

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 下面是一个通过矩阵运算计算回归系数的示例代码: ```python import numpy as np def calc_coef(data): # 将数据集转换为矩阵 x = np.mat(data[:, :-1]) y = np.mat(data[:, -1]).T # 计算矩阵的转置与自身的乘积 xtx = x.T * x # 判断矩阵是否为奇异矩阵 if np.linalg.det(xtx) == 0: print("矩阵为奇异矩阵,无法求逆!") return None # 通过求逆矩阵的方式计算回归系数 coef = xtx.I * x.T * y return coef # 测试 data = np.array([[1, 2, 3], [1, 3, 5], [1, 4, 7], [1, 5, 11]]) coef = calc_coef(data) print(coef) ``` 在这个示例,我们首先将数据集转换为矩阵形式,并计算矩阵的转置与自身的乘积(即 x.T * x)。然后,我们判断矩阵是否为奇异矩阵,如果是则输出提示信息并返回 None。否则,我们通过求逆矩阵的方式计算出回归系数。最后,我们输出回归系数的值。 ### 回答2: 在使用Jupyter通过矩阵运算计算回归系数时,我们需要首先导入所需的库和数据。假设我们有一个包含两个自变量(X1和X2)和一个因变量(Y)的数据集。下面是一个使用numpy和pandas进行回归系数计算的示例代码。 首先,我们需要导入所需的库: ```python import numpy as np import pandas as pd ``` 然后,我们可以导入数据集,假设数据集保存在名为“data.csv”的文件: ```python data = pd.read_csv('data.csv') ``` 接下来,我们可以将自变量和因变量分离: ```python X = data[['X1', 'X2']] Y = data['Y'] ``` 接下来,我们可以使用numpy的`linalg`模块来计算回归系数。首先,我们需要在自变量矩阵的第一列添加一个常数列,以便计算截距项: ```python X = np.c_[np.ones(len(X)), X] ``` 然后,我们可以使用最小二乘法来估计回归系数: ```python coefficients = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(Y) ``` 最后,我们可以打印回归系数: ```python print(coefficients) ``` 上述代码将使用矩阵运算来计算回归系数。需要注意的是,在进行矩阵运算时,自变量矩阵需要进行逆转置运算,以便得到适合用于回归的系数。 最终的结果将会打印出回归系数。这些系数表示自变量与因变量之间的关系,每个系数对应一个自变量。 希望上述代码能帮助你理解如何使用Jupyter通过矩阵运算计算回归系数。 ### 回答3: Jupyter是一个交互式编程环境,可以方便地进行矩阵运算和数据分析。下面是一个使用Jupyter计算回归系数的示例代码: ```python import numpy as np # 输入数据 X = np.array([[1, 2], [3, 4], [5, 6]]) # 自变量矩阵 y = np.array([3, 4, 5]) # 因变量矩阵 # 添加常数项 X = np.c_[np.ones(X.shape[0]), X] # 计算回归系数 coefficients = np.linalg.inv(X.T @ X) @ X.T @ y # 打印回归系数 print('回归系数:', coefficients) ``` 在这个例子,首先我们在自变量矩阵(X)的第一列添加了常数项(1),然后使用矩阵运算计算了回归系数(coefficients)。具体来说,我们使用了矩阵的逆运算(np.linalg.inv)、矩阵的转置运算(.T)、矩阵的乘法运算(@)和矩阵的求解运算(np.linalg.solve)等。最后,我们使用print语句打印了计算得到的回归系数。 这段代码是一个简单的线性回归模型,用于预测因变量(y)与自变量(X)之间的线性关系。通过矩阵运算,我们可以得到最优的回归系数,从而用于预测新的观测数据。因为Jupyter提供了交互式的环境,我们可以灵活地进行代码调试和结果展示,对于数据分析工作非常有帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值