machine-learning notes-week2

最新推荐文章于 2024-07-20 17:45:23 发布

zj134_

最新推荐文章于 2024-07-20 17:45:23 发布

阅读量99

点赞数

文章标签：机器学习人工智能吴恩达

本文链接：https://blog.csdn.net/qq_32523711/article/details/100811760

版权

自己简略的，有参考黄海广前辈！黄博士GitHub

第2周

四、多变量线性回归(Linear Regression with Multiple Variables)

4.1 多维特征

参考视频: 4 - 1 - Multiple Features

现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为 $\left( {x_{1}},{x_{2}},...,{x_{n}} \right)$ 。
在这里插入图片描述
引入一系列新的注释：
$n$ 代表特征的数量
${x^{\left( i \right)}}$ 代表第 $i$ 个训练实例，是特征矩阵中的第 $i$ 行，是一个向量（vector）。
比方说，上图的
${x}^{(2)}\text{=}\begin{bmatrix} 1416\\\ 3\\\ 2\\\ 40 \end{bmatrix}$ ，
${x}_{j}^{\left( i \right)}$ 代表特征矩阵中第 $i$ 行的第 $j$ 个特征，也就是第 $i$ 个训练实例的第 $j$ 个特征。
如上图的 $x_{2}^{\left( 2 \right)}=3,x_{3}^{\left( 2 \right)}=2$ ，
支持多变量的假设 $h$ 表示为： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$ ，
这个公式中有 $n + 1$ 个参数和 $n$ 个变量，为了使得公式能够简化一些，引入 $x_{0}=1$ ，则公式转化为： $h_{\theta} \left( x \right)={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$
此时模型中的参数是一个 $n + 1$ 维的向量，任何一个训练实例也都是 $n + 1$ 维的向量，特征矩阵 $X$ 的维度是 $m * (n + 1)$ 。因此公式可以简化为： $h_{\theta} \left( x \right)={\theta^{T}}X$ ，其中上标 $T$ 代表矩阵转置。

4.2 多变量梯度下降

参考视频: 4 - 2 - Gradient Descent for Multiple Variables

多变量线性回归中，也构建一个代价函数，是所有建模误差的平方和，即： $J\left( {\theta_{0}},{\theta_{1}}...{\theta_{n}} \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}$ ，
其中： $h_{\theta}\left( x \right)=\theta^{T}X={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$ ，
目标和单变量线性回归问题中一样，找出使得代价函数最小的一系列参数。
多变量线性回归的批量梯度下降算法为：
在这里插入图片描述
当 $n > = 1$ 时，
${{\theta }_{0}}:={{\theta }_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{0}^{(i)}$

${{\theta }_{1}}:={{\theta }_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{1}^{(i)}$

${{\theta }_{2}}:={{\theta }_{2}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{2}^{(i)}$
开始随机选择一系列的参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直到收敛。

4.3 梯度下降法实践1-特征缩放

参考视频: 4 - 3 - Gradient Descent in Practice I - Feature Scaling

面对多维特征问题的时候，保证特征具有相近的尺度，将帮助梯度下降算法更快地收敛。
以房价问题为例，假设我们使用两个特征，房屋尺寸和房间数量，尺寸的值为 0-2000平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。
在这里插入图片描述
解决的方法是将所有特征的尺度都尽量缩放到-1到1之间。如图：

可以令： ${{x}_{n}}=\frac{{{x}_{n}}-{{\mu}_{n}}}{{{s}_{n}}}$ ，其中 ${\mu_{n}}$ 是平均值， ${s_{n}}$ 是标准差。

4.4 梯度下降法实践2-学习率

参考视频: 4 - 4 - Gradient Descent in Practice II - Learning Rate

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，不能提前预知，可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛：
在这里插入图片描述
也有其他测试是否收敛的方法，如将代价函数的变化值与某个阀值（例如0.001）进行比较。
梯度下降算法的每次迭代受学习率影响，如果学习率 $a$ 过小，则达到收敛所需迭代次数会非常高；如果学习率 $a$ 过大，迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛，甚至发散。
通常可以考虑尝试些学习率：
$\alpha=0.01，0.03，0.1，0.3，1，3，10$

4.5 特征和多项式回归

参考视频: 4 - 5 - Features and Polynomial Regression

如房价预测问题：
在这里插入图片描述
$h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}\times{frontage}+{\theta_{2}}\times{depth}$
${x_{1}}=frontage$ （临街宽度）， ${x_{2}}=depth$ （纵向深度）， $x = f r o n t a g e * d e p t h = a r e a$ （面积），则： ${h_{\theta}}\left( x \right)={\theta_{0}}+{\theta_{1}}x$ 。
线性回归并不适用所有数据，有时需要曲线来拟合数据，比如一个二次方模型： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}$
或者三次方模型： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}+{\theta_{3}}{x_{3}^3}$
在这里插入图片描述
通常需要观察数据然后再决定准备尝试怎样的模型。另外，我们可以令：
${{x}_{2}}=x_{2}^{2},{{x}_{3}}=x_{3}^{3}$ ，从而将模型转化为线性回归模型。
根据函数图形特性，我们还可以使：
${{{h}}_{\theta}}(x)={{\theta }_{0}}\text{+}{{\theta }_{1}}(size)+{{\theta}_{2}}{{(size)}^{2}}$
或者:
${{{h}}_{\theta}}(x)={{\theta }_{0}}\text{+}{{\theta }_{1}}(size)+{{\theta }_{2}}\sqrt{size}$

注：如果采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。

4.6 正规方程

参考视频: 4 - 6 - Normal Equation

对于某些线性回归问题，正规方程方法会更好。如：
在这里插入图片描述
正规方程是通过求解下面的方程来找出使得代价函数最小的参数的： $\frac{\partial}{\partial{\theta_{j}}}J\left( {\theta_{j}} \right)=0$ 。
假设我们的训练集特征矩阵为 $X$ （包含了 ${{x}_{0}}=1$ ）并且我们的训练集结果为向量 $y$ ，则利用正规方程解出向量 $\theta ={{\left( {X^T}X \right)}^{-1}}{X^{T}}y$ 。
上标T代表矩阵转置，上标-1 代表矩阵的逆。设矩阵 $A={X^{T}}X$ ，则： ${{\left( {X^T}X \right)}^{-1}}={A^{-1}}$

总结：只要特征变量的数目不大，标准方程是一个很好的计算参数 $\theta$ 的替代方法。具体地说，只要特征变量数量小于一万，通常使用标准方程法，而不使用梯度下降法。
当我们讲到分类算法，像逻辑回归算法，并不能使用标准方程法。

zj134_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
machine-learning notes-week2

自己简略的，有参考黄海广前辈！黄博士GitHub第2周四、多变量线性回归(Linear Regression with Multiple Variables)4.1 多维特征参考视频: 4 - 1 - Multiple Features 现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为(x1,x2,...,xn)\left( {x_{...
复制链接

扫一扫