【吴恩达机器学习】梯度下降线性回归模型和正规方程

Mr.stupidCoder

已于 2023-11-16 14:52:28 修改

阅读量145

点赞数 1

分类专栏：吴恩达机器学习文章标签：机器学习线性回归人工智能数学建模

于 2023-11-16 14:48:49 首次发布

本文链接：https://blog.csdn.net/m0_58272336/article/details/134440014

版权

吴恩达机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

梯度下降线性回归模型和正规方程

线性回归模型

在这里插入图片描述

h_θ(x)为线性回归模型，由两个值θ₀和θ₁进行控制。

J(θ₀,θ₁)称为代价函数，表示实际训练值和回归模型拟合值的关系。可以知道代价函数对应的值越小，则拟合效果越好。

m：训练集

例：此处使用线性回归模型来拟合房间大小对应的价格高低，且假设影响因素为θ₀和θ₁。

图 1 图 2

左图体现了了代价函数的总体趋势（凹），可以发现存在代价最低的一个点，因此如何找到此点对应的θ₁和θ₁成为我们的主要问题。

右图通过给θ₀和θ₁分别赋值后的线性回归函数拟合效果，可以看出和实际数据集偏差比较大。如果找到代价函数最小值，那么拟合效果将最优。

梯度下降算法

图3

“:=” 意思是将右侧表达式的值赋值给左侧表达式，Truth assertion意为数学断言中两侧是否相等。
偏导数的具体作用是帮助找到最小值：导数实际上是曲线斜率，从图1中将θ₀视为常数，θ₁为自变量时，此时代价函数为二次抛物线（图4）。而要找到代价函数最低点，此时图3 中初始点的 θ₁ 减去导数项,意味着离最低点就更近（斜率正负均一样），且曲线越接近最低值，斜率越小，收敛速度将变慢。
α：学习速率，即在进行梯度下降时，每一步的大小。
梯度下降应该是同步的，即应该算出temp0、temp1后再更新θ₀和θ₁，如果算出temp0后立马更新θ_0，则θ_1的更新将会出现问题（不同步）。

图4 图 5

图4说明：在进行梯度下降时寻找最小值点时，偏导数（斜率）的正负、大小对寻找的影响。

图5说明：α过大和过小的情况下会出现寻找不到（发散），和速度太慢（收敛速度太慢，需要迭代的次数将增加）。

图6 图7

图6：解释了当找到局部最小值时（偏导数为0），根据梯度下降算法，θ将不会再进行更新。

图7：由图易知，图像初始斜率大即偏导数值大，那么更新幅度就会大，当再更新时曲线斜率（偏导数）变小，那么更新幅度就会逐步变小。当我们接近局部最小值时，梯度下降算法会自动采用更小的学习速率α，确保不会越过最小值点。

Batch梯度下降法（梯度下降的线性回归）

求偏导数

代入梯度下降算法

梯度下降法寻找最小值的图示过程

多元线性回归假设的形式

将线性代数应用到多元线性回归模型中

此处假设影响房价的因素仅有4个，**x⁽ⁱ⁾**表示4个因素构成的向量，**x⁽ⁱ⁾_j**表示向量中具体值。

用θ向量表示从θ₀，θ₁，……，θ_n且θ为n+1维向量，X同理。X₀默认为1。多元线性回归方程可表示为两个向量(θ和X)的乘积。

将代价函数带入到梯度下降算法后，梯度下降算法更新将应用到θ₀，θ₁，……，θ_n。

特征缩放和均值归一化

特征缩放（Feature Scaling）通常是在数据预处理阶段，将不同量纲或量程的数据转换到同一量纲下或某个特定区间内。这样做可以使得模型训练更快，更容易找到全局最优解。

特征范围并不用完全在-1到1内和外，只要与这个范围足够接近，但是不要过大或过小。梯度下降法都会正常工作。

均值归一化（Normalization）通常是将特征的值缩放到一个固定的范围，如 [0, 1]。常用的归一化方法是 Min-Max Scaling，其计算公式为：

在这里插入图片描述

学习率α促进梯度下降

左图描述了求得最小代价函数随着迭代次数的变化。右图描述了不同的学习率α对寻找最小代价函数的影响。

即：如果α太小，收敛过慢；α过大，可能会发散。因此选择一个合适的α是至关重要的；你可以尝试不同数量级（0.0001->0.001->0.01 etc.）

正规方程求θ

在这里插入图片描述

当正规方程为J(θ) = aθ²+bθ +c时，通过求导可以快速得出θ在某处时，J(θ)的导数为0，此时θ为所求值。

一般地通过正规方程法求θ并不会像上述例子那样简单，所以通用解法如下：

在这里插入图片描述

此处Octave是一种编程工具，你可以在其中计算θ。

例如：

正规方程法不需要特征缩放

梯度下降法和正规方程法的优劣

在训练集为m,特征量为n的情况下：

梯度下降法：

需要选择一个合适的α。
需要许多次迭代才能得出结果。
适合特征数量较多的情况（大约在n=10⁶）

正规方程法：

不需要选择α。
不需要迭代。
需要去计算**(X^TX)^-1**。
如果特征数量较多，计算将会很慢。

Mr.stupidCoder

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【吴恩达机器学习】梯度下降线性回归模型和正规方程

图7：由图易知，图像初始斜率大即偏导数值大，那么更新幅度就会大，当再更新时曲线斜率（偏导数）变小，那么更新幅度就会逐步变小。图5说明：α过大和过小的情况下会出现寻找不到（发散），和速度太慢（收敛速度太慢，需要迭代的次数将增加）。图6：解释了当找到局部最小值时（偏导数为0），根据梯度下降算法，θ将不会再进行更新。+bθ +c时，通过求导可以快速得出θ在某处时，J(θ)的导数为0，此时θ为所求值。图4说明：在进行梯度下降时寻找最小值点时，偏导数（斜率）的正负、大小对寻找的影响。α过大，可能会发散。
复制链接

扫一扫

专栏目录