机器学习笔记3 【多元线性回归】

最新推荐文章于 2024-09-17 02:13:06 发布

一滴风Echo

最新推荐文章于 2024-09-17 02:13:06 发布

阅读量225

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/echowenyu/article/details/98595328

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文详细介绍了多元线性回归，包括符号定义、梯度下降法及其在数据处理中的应用，如特征缩放和均值归一化。还探讨了正规方程的优势和在处理非线性函数时的作用，并对比了梯度下降与正规方程在实际运用中的优缺点。

摘要由CSDN通过智能技术生成

多元线性回归

多元线性回归

多元线性回归

1 符号

m训练样本数量
n特征量的数目
$x^{(i)}$ 第 $i$ 个训练样本的特征向量，是一个n维向量
${x_j}^{(i)}$ 第 $i$ 个训练样本中，第 $j$ 个特征量的值

2 多元梯度下降法

2.1 假设函数

在多元变量中，假设函数应该为： $h\left( x \right) \,\,=\,\,\theta _0+\theta _1x_1+\theta _2x_2+\cdots +\theta _nx_n$
为了方便起见，定义 $x_0 = 1$ ，现在把 $x$ 和 $\theta$ 看作一个 $\times 1$ 的向量，即$\left[ \begin{array}{l} x_0\ x_1\ \vdots\ x_n\ \end{array} \right] $，$ \left[ \begin{array}{l} \theta_0\ \theta_1\ \vdots\ \theta_n\ \end{array} \right] $
现在假设函数可以写为 $h\left( x \right) = \theta^T x$

2.2 代价函数

多元变量中，代价函数可以写为：
$J(\theta_0,\theta_1,\dots,\theta_n)=\displaystyle\frac{1}{2m} \displaystyle\sum^{m}_{i=0}\Big({h(x^{(i)}) - y^{(i)}}\Big)$
当 $\theta$ 表示向量时，上式就可以写为：
$J(\theta)=\displaystyle\frac{1}{2m} \displaystyle\sum^{m}_{i=0}\Big({h(x^{(i)}) - y^{(i)}}\Big)$

2.3梯度下降

$repeat\ until\ convergence\{ \\ \quad \theta_j := \theta_j - \alpha \frac{\partial}{\partial {\theta_j}} J(\theta_0,\theta_1,\dots,\theta_n) \quad (for\ j = 0, \dots, n) \\ \}$
也可以用 $\theta$ 代替 $\theta_0,\theta_1,\dots,\theta_n$

$\theta$ 的计算方法，与单变量的类比

mark

3 数据处理技巧

3.1 特征量缩放和均值归一化

所有的特征量在一个相近的数量级大学时候，代价函数会较快的收敛，所以可以用原始特征量除以该特征量样本的极差
均值归一化是指：所有特征量减去其均值，使改变后的特征量均值为零
特征量缩放和均值归一化即进行以下操作：
$x_i=\displaystyle\frac{x_i - \mu_i}{s_i}$
$\mu_i$ 是第i个特征量的均值， $s_i$ 是第i个特征量的极差

3.2 特征量的选择

例如在房屋售价预测中，给出的特征量是房屋的宽度f和深度d，我们可以选择特征量为 $\times d$

3.3 用多元线性回归处理非线性函数

例如在房屋售价预测中，给出的特征量为房屋面积size，我们可以通过另 $x_1 = (size),\\ x_2=(size)^2,\\x_3=(size)^3$ ，来构造一个关于size的非线性假设函数：

4 正规方程(normal equation)

正规方程可以用解析方法求解 $J(\theta)$ ，不需要再一步步的迭代，可以一步直接求得结果
思想就是求 $J(\theta)$ 对 $\theta$ 的导数或者偏导数，另其等于零，然后计算相应的 $\theta$ 的值（再多元线性回归中，不只一个 $\theta$ 值）
其中X也被称为design matrix ，其构造方法更一般的表达为：
计算最佳 $\theta$ 的式子为: $ \theta = (X^T X)^{-1} X^T y $
在Octave中： $p i n v (x^{'} * x) * x^{'} * y$ ，pinv表示求逆，'表示转置，*表示相乘
可能存在 $X^T X$ 不可逆的情况，此时在Octave中使用pinv仍可以得到正确的结果，但是聪理解层面上来说， $X^T X$ 不可逆的原因可能有以下两个
1. 有多余的特征量，例如有
  $x_1= size\ in\ feet^2$
  $x_2= size\ in\ m^2$
  因为 $1 m = 3.28 f e e t$ ，则 $x_2=(3.28)^2 x_1$ ，它们之间存在一种线性关系，导致 $X^T X$ 不可逆
  解决方案：删除多余的特征量
2. 特征量数量过多。虽然每一个特征量都是独立的，与其他特征量不存在线性关系，但是如果 $n > m$ ，例如 $n=100,\ m = 10$ ，这种情况也也有可能会导致 $X^T X$ 不可逆（不是所以 $n > m$ 都会使 $X^T X$ 不可逆）
  解决方案：删去一些特征量，或进行正则化（regularization）
注意：使用正规方程求解不需要特征缩放，两个特征量的数量级可以差别较大