机器学习笔记3 【多元线性回归】

最新推荐文章于 2024-09-06 16:00:36 发布

一滴风Echo

最新推荐文章于 2024-09-06 16:00:36 发布

阅读量225

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/EchoWenyu/article/details/98595328

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文详细介绍了多元线性回归，包括符号定义、梯度下降法及其在数据处理中的应用，如特征缩放和均值归一化。还探讨了正规方程的优势和在处理非线性函数时的作用，并对比了梯度下降与正规方程在实际运用中的优缺点。

摘要由CSDN通过智能技术生成

多元线性回归

多元线性回归

多元线性回归

1 符号

m训练样本数量
n特征量的数目
$x^{(i)}$ 第 $i$ 个训练样本的特征向量，是一个n维向量
${x_j}^{(i)}$ 第 $i$ 个训练样本中，第 $j$ 个特征量的值

2 多元梯度下降法

2.1 假设函数

在多元变量中，假设函数应该为： $h\left( x \right) \,\,=\,\,\theta _0+\theta _1x_1+\theta _2x_2+\cdots +\theta _nx_n$
为了方便起见，定义 $x_0 = 1$ ，现在把 $x$ 和 $\theta$ 看作一个 $\times 1$ 的向量，即$\left[ \begin{array}{l} x_0\ x_1\ \vdots\ x_n\ \end{array} \right] $，$ \left[ \begin{array}{l} \theta_0\ \theta_1\ \vdots\ \theta_n\ \end{array} \right] $
现在假设函数可以写为 $h\left( x \right) = \theta^T x$

2.2 代价函数

多元变量中，代价函数可以写为：
$J(\theta_0,\theta_1,\dots,\theta_n)=\displaystyle\frac{1}{2m} \displaystyle\sum^{m}_{i=0}\Big({h(x^{(i)}) - y^{(i)}}\Big)$
当 $\theta$ 表示向量时，上式就可以写为：
$J(\theta)=\displaystyle\frac{1}{2m} \displaystyle\sum^{m}_{i=0}\Big({h(x^{(i)}) - y^{(i)}}\Big)$

2.3梯度下降

$repeat\ until\ convergence\{ \\ \quad \theta_j := \theta_j - \alpha \frac{\partial}{\partial {\theta_j}} J(\theta_0,\theta_1,\dots,\theta_n) \quad (for\ j = 0, \dots, n) \\ \}$
也可以用 $\theta$ 代替 $\theta_0,\theta_1,\dots,\theta_n$

$\theta$ 的计算方法，与单变量的类比

mark

3 数据处理技巧

3.1 特征量缩放和均值归一化

所有的特征量在一个相近的数量级大学时候，代价函数会较快的收敛，所以可以用原始特征量除以该特征量样本的极差
均值归一化是指：所有特征量减去其均值，使改变后的特征量均值为零
特征量缩放和均值归一化即进行以下操作：
$x_i=\displaystyle\frac{x_i - \mu_i}{s_i}$
$\mu_i$ 是第i个特征量的均值， $s_i$ 是第i个特征量的极差

3.2 特征量的选择

例如在房屋售价预测中，给出的特征量是房屋的宽度f和深度d，我们可以选择特征量为 $\times d$

3.3 用多元线性回归处理非线性函数

例如在房屋售价预测中，给出的特征量为房屋面积size，我们可以通过另 $x_1 = (size),\\ x_2=(size)^2,\\x_3=(size)^3$ ，来构造一个关于size的非线性假设函数：

4 正规方程(normal equation)

正规方程可以用解析方法求解 $J(\theta)$ ，不需要再一步步的迭代，可以一步直接求得结果
思想就是求 $J(\theta)$ 对 $\theta$ 的导数或者偏导数，另其等于零，然后计算相应的 $\theta$ 的值（再多元线性回归中，不只一个 $\theta$ 值）
其中X也被称为design matrix ，其构造方法更一般的表达为：
计算最佳 $\theta$ 的式子为: $ \theta = (X^T X)^{-1} X^T y $
在Octave中： $p i n v (x^{'} * x) * x^{'} * y$ ，pinv表示求逆，'表示转置，*表示相乘
可能存在 $X^T X$ 不可逆的情况，此时在Octave中使用pinv仍可以得到正确的结果，但是聪理解层面上来说， $X^T X$ 不可逆的原因可能有以下两个
1. 有多余的特征量，例如有
  $x_1= size\ in\ feet^2$
  $x_2= size\ in\ m^2$
  因为 $1 m = 3.28 f e e t$ ，则 $x_2=(3.28)^2 x_1$ ，它们之间存在一种线性关系，导致 $X^T X$ 不可逆
  解决方案：删除多余的特征量
2. 特征量数量过多。虽然每一个特征量都是独立的，与其他特征量不存在线性关系，但是如果 $n > m$ ，例如 $n=100,\ m = 10$ ，这种情况也也有可能会导致 $X^T X$ 不可逆（不是所以 $n > m$ 都会使 $X^T X$ 不可逆）
  解决方案：删去一些特征量，或进行正则化（regularization）
注意：使用正规方程求解不需要特征缩放，两个特征量的数量级可以差别较大

5 梯度下降与正规方程的比较

5.1 梯度下降

优点
1. 在n（特征量）较大时也有较好的效果
2. 适用范围更广
缺点
1. 需要选则 $\alpha$
2. 需要很多迭代次数

5.2 正规方程

优点
1. 不需要选则 $\alpha$
2. 不需要很多迭代次数
缺点
1. 需要计算 $X^T X)^{-1}$ （一个 $\times n$ 的矩阵），所以当n特别大时，计算速度很慢
2. 有些算法不适用

一般在n小于10,000时，选择正规方程

一滴风Echo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记3 【多元线性回归】

多元线性回归多元线性回归符号多元梯度下降法假设函数代价函数梯度下降数据处理技巧特征量缩放和均值归一化特征量的选择用多元线性回归处理非线性函数正规方程(normal equation)梯度下降与正规方程的比较梯度下降正规方程多元线性回归符号m训练样本数量n特征量的数目x(i)x^{(i)}x(i) 第iii个训练样本的特征向量，是一个n维向量xj(i){x_j}^{(i)}xj(i)...
复制链接

扫一扫

专栏目录