吴恩达机器学习笔记（四）多变量线性回归

最新推荐文章于 2023-09-14 16:41:40 发布

AngelaOrange

最新推荐文章于 2023-09-14 16:41:40 发布

阅读量633

点赞数

分类专栏：机器学习笔记文章标签：吴恩达机器学习多变量线性回归

本文链接：https://blog.csdn.net/qq_35175666/article/details/84347257

版权

这篇博客详细介绍了多变量线性回归，包括多元梯度下降法、特征缩放、学习率调整以及正规方程。吴恩达教授强调特征缩放对梯度下降法收敛速度的影响，并提出学习率选择的建议。他还探讨了多项式回归和正规方程，指出正规方程在特征数量较少时的优势，同时提到了矩阵不可逆情况下的解决办法。

摘要由CSDN通过智能技术生成

吴恩达机器学习笔记（四）多变量线性回归

一、多维特征（Multiple Features）
二、多元梯度下降法
三、多元梯度下降法实操——特征缩放(Feature Scaling)
四、多元梯度下降法实操——学习率（Learning Rate）
五、特征和多项式回归(Features and Polynomial Regression)
六、正规方程(Normal Equation)
七、正规方程在矩阵不可逆时的解决办法(Nomal Equation and Non-invertibility)

本文章是笔者根据Coursera上吴恩达教授的机器学习课程来整理的学习笔记。如果是初学者，建议大家首先观看吴恩达教授的课程视频，然后再来看博文的要点总结。两者一起食用，效果更佳。

一、多维特征（Multiple Features）

之前讲过的房价预测问题是单一特征的，现在赋予其更多的特征，如下图：

多元线性回归模型：

二、多元梯度下降法

梯度下降法应用于多元线性回归模型：

求偏导数：左侧是单变量的公式，右侧是多变量的公式。

三、多元梯度下降法实操——特征缩放(Feature Scaling)

主要思想：让特征的取值范围相近，能够让梯度下降法更快地收敛。
下图中，左侧是未进行特征缩放的数据。x1取值范围远大于x2的取值范围，导致等高线呈非常细长的椭圆状，收敛很慢，甚至产生震荡。右侧是进行特征缩放后的，等高线比较均匀，能更快地收敛。

吴恩达教授建议的缩放范围是-3～3，-1/3～1/3。
各特征取值范围不要求完全相同，只要比较接近，就可使梯度下降算法正常工作。

均值归一化：
减均值，再除以标准差，或简单地直接除以最大值与最小值的差。

四、多元梯度下降法实操——学习率（Learning Rate）

debug的方法：
绘制出损失函数随着迭代次数的变化趋势。如果下降，说明梯度下降算法是正常工作的。
此外，还有自动测试是否收敛的方法。即设定一个很小的阈值，当损失函数下降速度小于阈值时，认为收敛。
吴恩达教授认为，很难确定一个合适的阈值，因此他更倾向于绘制图像来观察。
不同数据集下的梯度下降算法，收敛时的迭代次数很难提前预知，有的是300次即可收敛，有的是300万次才收敛。因此，有必要通过绘制图像来查看算法是否正常工作。

如果损失函数不是下降趋势的，而是上升，或先下降再上升再下降再上升等，很有可能是因为学习率过大。此时应该选用一个更小的学习率。

如果学习率太小，收敛太慢。
如果学习率太大，可能不是每次迭代都会下降，甚至发散。
吴恩达教授建议选去的学习率是，…0.001，0.003，0.01，0.03，0.1，0.3，1…取比能收敛的最大学习率稍小一些的数值作为学习率。