吴恩达ML——（四）多变量线性回归_js 插件ml-regression-polynomial-CSDN博客

本文链接：https://blog.csdn.net/Junewang0614/article/details/120828946

本文探讨了房价预估问题中的多元线性回归模型，介绍了Hypothesis、Cost function和梯度下降法的运算技巧，强调了特征缩放对算法效率的影响。通过正规方程与梯度下降的对比，揭示了不同优化策略的优缺点和适用场景。

摘要由CSDN通过智能技术生成

中	英	含义
多元线性回归	Multivariate linear regression
特征缩放	feature scaling
均值归一化	mean normalization
多项式回归	polynomial regression	将多项式函数拟合到训练集中
正规方程	normal equation	求参数θ的解析解法

m为样本数
n为特征数

$h_\theta(x) = \theta^Tx$
$\theta = [\theta_0,\theta_1……\theta_n]^T,x= [x_0,x_1,x_2……x_n]^T,x_0\equiv1$

$J(\theta) = \frac{1}{2m}\sum_{i = 1}^m{(h_\theta(x^{(i)})-y^{(i)})}^2$

$\theta_j\coloneqq\theta_j - \frac{\alpha}{m}\sum_{i = 1}^m{(h_\theta(x^{(i)})-y^{(i)})*x_j^{(i)}}$

运算过程
在这里插入图片描述

对于特征x = [x₀,x₁,x₂,x₃……x_n]^T，尽量让每一种特征的取值范围都在一个相似的范围内。因为每个参数θ_j变化率和x_j有关，所以当每一种特征的取值范围相似时，参数在梯度下降过程中变化幅度也相似，不会有太大差异，这样可以加快梯度下降算法的速度，减少迭代次数，尽快收敛到最小值。

具体操作
在这里插入图片描述

学习率的影响

当学习率很小的时候，梯度下降算法非常慢，效率低
当学习率很大的时候，cost function可能不会收敛，反而增大

如何反映梯度下降算法的运行情况？

借助迭代次数与J(θ)曲线，正常情况下，随着迭代次数的增加，J(θ)越来越小趋近于最小值。
如果出现其他情况，排除代码本身逻辑错误，一般是学习率过大需要调整。

学习率选择方法
尝试一系列的数据：0.001,0.003,0.01,0.03……

可以迅速求解出当J(θ)最小的时候，对应的θ的值。不需要进行特征缩放。
$\theta = (X^TX)^{-1}X^Ty$

在这里插入图片描述

	梯度下降	正规方程
优点	* 当特征很多的时候，梯度下降法表现很好	* 不需要学习率，不需要迭代
局限性	*需要调整学习率，是迭代算法	当n很大的时候，效率低（要进行大矩阵计算）；不适用于一些其他复杂的学习算法