机器学习学习笔记（四）——特征缩放与多项式回归

最新推荐文章于 2024-06-14 11:18:03 发布

魔方科研

最新推荐文章于 2024-06-14 11:18:03 发布

阅读量802

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/magiconecube/article/details/94313961

版权

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了多元线性回归的数学原理，包括特征表示、假设函数、代价函数及梯度下降法。介绍了如何通过特征缩放加快收敛，以及使用正规方程求解参数的方法。并讨论了多项式回归和调试学习率的技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多个特征

表达方法

符号	含义
n	特征的数量
$X^{(i)}_j$	第i个样本的第j个特征

假设函数

对于多个特征的假设函数，有
$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_1+\theta_3x_3+\theta_4x_4$
我们定义 $x_0=1$ ，则有
$X=\left\{\begin{matrix}x_0\\x_1\\x_2\\x_3\\x_4\end{matrix}\right\}$

$\Theta=\left\{\begin{matrix}\theta_0\\\theta_1\\\theta_2\\\theta_3\\\theta_4\end{matrix}\right\}$

则
$h_\Theta(X)=\Theta^TX$

代价函数

$J(\Theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\Theta(x^{(i)})-y^{(i)})^2$

梯度下降

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\Theta)$

不要忘了要同时更新

特征缩放

为了梯度下降的收敛更加迅速，应该将所有的特征的范围缩放到一个区间，比如 $[- 1, 1]$

如果他们一个是 $[- 0.00001, 0.000001]$ ，或者 $[- 100000, 1000000]$ ，另一个是 $[- 1, 1]$ ，那么收敛速度会很慢。

另外一种技巧是用用 $x_i-\mu_i$ 代替 $x_i$ 使特征的平均值为0。

所有有特征缩放：
$x_i:=\frac{x_i-\mu_i}{S_i}$
其中 $\mu_i$ 是特征的平均值， $S_i$ 是特征的范围。

Debug：调整学习率

通常梯度下降不收敛和学习率有关，学习率过小算法收敛慢，学习率过大算法不收敛。

通常的Debug方法是随着迭代的次数增加画出代价函数随迭代次数变化的曲线，如果下降则算法正常，如果平缓则算法已经收敛，如果波动或者上升则说明学习率过大。

多项式回归

优势线性回归方程不是一次的，而是二次的，这时我们可以用房间面积的平方作为特征量即 $x_2=(size)^2$ 进行计算。

正规方程

如果数据集中有m组样本，每个样本有n个特征

则我们记
$X=\left\{\begin{matrix}(X^{(1)})^T\\(X^{(2)})^T\\(X^{(3)})^T\\\vdots\\(X^{(m)})^T\end{matrix}\right\}$

$\Theta=\left\{\begin{matrix}\theta_0\\\theta_1\\\theta_2\\\theta_3\\\vdots\\\theta_n\end{matrix}\right\}$

$Y=\left\{\begin{matrix}y_1\\y_2\\y_3\\\vdots\\y_m\end{matrix}\right\}$

有关系
$\Theta=(X^{T}X)^{-1}X^{T}Y$

octave 表达式

pinv(x'x)*x'*y

$X^TX$ 没有逆的情况

造成这种原因有两种

有相关的特征存在
特征数大于样本数

解决方法（octave）

pinv()//求伪逆