python和matlab拟合_梯度下降算法 线性回归拟合(附Python/Matlab/Julia源代码)

梯度下降

梯度下降法的原理

梯度下降法(gradient descent)是一种常用的一阶(first-order)优化方法,是求解无约束优化问题最简单、最经典的方法之一。

梯度下降最典型的例子就是从山上往下走,每次都寻找当前位置最陡峭的方向小碎步往下走,最终就会到达山下(暂不考虑有山谷的情况)。

首先来解释什么是梯度?这就要先讲微分。对于微分,相信大家都不陌生,看几个例子就更加熟悉了。

先来看单变量的微分:

equation?tex=%5Cfrac%7Bd%5Cleft%28x%5E%7B2%7D%5Cright%29%7D%7Bd+x%7D%3D2+x

再看多变量的微分:

equation?tex=%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial+x%7D%5Cleft%28x%5E%7B2%7D+y%5Cright%29%3D2+x+y+%5C%5C+++%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial+y%7D%5Cleft%28x%5E%7B2%7D+y%5Cright%29%3Dx%5E%7B2%7D

补充:导数和微分的区别

导数是函数在某一点处的斜率,是Δy和Δx的比值;而微分是指函数在某一点处的切线在横坐标取得增量Δx以后,纵坐标取得的增量,一般表示为dy。

梯度就是由微分结果组成的向量,令

equation?tex=f%28x%2Cy%2Cz%29+%3D+x%5E%7B2%7D+%2B+2xy+%2B+3yz

equation?tex=%5Cleft%5C%7B%5Cbegin%7Bmatrix%7D+%5Cfrac%7B%5Cpartial+f%7D%7B%5Cpartial+x%7D%3D2x+%2B+2y+%5C%5C+%5C%5C+%5Cfrac%7B%5Cpartial+f%7D%7B%5Cpartial+y%7D%3D2x+%2B3z+%5C%5C+%5C%5C+%5Cfrac%7B%5Cpartial+f%7D%7B%5Cpartial+z%7D%3D3y+%5Cend%7Bmatrix%7D%5Cright.

那么,函数f(x,y,z)在(1,2,3)处的微分为

equation?tex=%5Cleft%5C%7B%5Cbegin%7Bmatrix%7D+%5Cfrac%7B%5Cpartial+f%7D%7B%5Cpartial+x%7D%3D2x+%2B+2y+%3D+2%2A1%2B2%2A2%3D6+%5C%5C+%5C%5C+%5Cfrac%7B%5Cpartial+f%7D%7B%5Cpartial+y%7D%3D2x+%2B3z+%3D+2%2A1+%2B+3%2A3%3D11+%5C%5C+%5C%5C+%5Cfrac%7B%5Cpartial+f%7D%7B%5Cpartial+z%7D%3D3y%3D3%2A2%3D6+%5Cend%7Bmatrix%7D%5Cright.

因此,函数f(x,y,z)在(1,2,3)处的梯度为(6,11,6)。

梯度是一个向量,对于一元函数,梯度就是该点处的导数,表示切线的斜率。对于多元函数,梯度的方向就是函数在该点上升最快的方向。

梯度下降法就是每次都寻找梯度的反方向,这样就能到达局部的最低点。

那为什么按照梯度的反方向能到达局部的最低点呢?这个问题直观上很容易看出来,但严禁起见,我们还是给出数学证明。

对于连续可微函数f(x),从某个随机点出发,想找到局部最低点,可以通过构造一个序列

equation?tex=x_%7B0%7D%2Cx_%7B1%7D%2Cx_%7B2%7D... 能够满足

equation?tex=f%28x_%7Bt%2B1%7D%29+%3C+f%28x_%7Bt%7D%29%2C+t%3D0%2C1%2C2...

那么我们就能够不断执行该过程即可收敛到局部极小点,可参考下图。

那么问题就是如何找到下一个点

equation?tex=x%5E%7Bt%2B1%7D 并保证

equation?tex=f%28x%5E%7Bt%2B1%7D%29+%3C+f%28x%5Et%29 呢?我们以一元函数为例来说明。对于一元函数来说,x是会存在两个方向:要么是正方向

equation?tex=%5CDelta+x+%3E+0 , 要么是负方向

equation?tex=%5CDelta+x+%3C+0 ,如何选择每一步的方向,就需要用到大名鼎鼎的泰勒公式,先看一下下面这个泰勒展式:

equation?tex=f%28x%2B%5CDelta+x%29+%5Csimeq+f%28x%29%2B%5CDelta+x+%5Cnabla+f%28x%29

其中

equation?tex=%5Cnabla+f%28x%29 表示f(x)在x处的导数。

若想

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是使用Python代码对梯度下降算法实现线性回归的示例: 首先,我们需要导入所需的包: ```python import numpy as np import matplotlib.pyplot as plt ``` 然后,我们定义一个函数来计算误差,即损失函数: ```python def compute_cost(X, y, theta): m = len(y) predictions = X.dot(theta) square_err = (predictions - y) ** 2 J = 1 / (2 * m) * np.sum(square_err) return J ``` 其中,X是一个m行n列的特征矩阵,y是一个m行1列的目标向量,theta是一个n行1列的参数向量,m是样本数量,n是特征数量。 接下来,我们定义一个函数来执行梯度下降算法: ```python def gradient_descent(X, y, theta, alpha, num_iters): m = len(y) J_history = np.zeros((num_iters, 1)) for i in range(num_iters): predictions = X.dot(theta) errors = np.subtract(predictions, y) delta = (alpha / m) * X.transpose().dot(errors) theta = theta - delta J_history[i] = compute_cost(X, y, theta) return theta, J_history ``` 其中,alpha是学习率,num_iters是迭代次数,J_history记录了每次迭代后的损失函数值。 最后,我们可以使用上述函数来拟合一个简单的线性模型: ```python # 生成随机数据 np.random.seed(0) X = 2 * np.random.rand(100, 1) y = 4 + 3 * X + np.random.randn(100, 1) # 对特征矩阵X添加一列全为1的向量,以便于计算截距 X_b = np.c_[np.ones((100, 1)), X] # 初始化参数向量theta theta = np.random.randn(2, 1) # 执行梯度下降算法 alpha = 0.1 num_iters = 1000 theta, J_history = gradient_descent(X_b, y, theta, alpha, num_iters) # 绘制拟合直线 plt.scatter(X, y) plt.plot(X, X_b.dot(theta), 'r') plt.show() ``` 这里我们生成了一个简单的一维数据集,然后对其进行线性回归拟合并绘制出拟合直线。 完整代码如下:

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值