吴恩达机器学习笔记2

最新推荐文章于 2024-03-18 22:49:40 发布

mxb1234567

最新推荐文章于 2024-03-18 22:49:40 发布

阅读量157

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/mxb1234567/article/details/104562614

版权

机器学习专栏收录该内容

13 篇文章 2 订阅

订阅专栏

多变量线性回归(Linear Regression with Multiple Variables)

多维特征

符号说明

多变量梯度下降

梯度下降法实践1-特征缩放 Feature Scaling

多变量线性回归(Linear Regression with Multiple Variables)

多维特征

在之前房价预测的基础上，现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为 $\small (x_1,x_2,...,x_n)$ 。

符号说明

$\small n$	特征的数量
$\small x^{(i)}$	一个向量(vector),代表第 $\small i$ 个训练实例，是特征矩阵中的第行
$\small x^{(i)}_j$	代表特征矩阵中第 $\small i$ 行的第 $\small j$ 个特征,即第 $\small i$ 个训练实例的第 $\small j$ 个特征

支持多变量的假设 $\small h$ 表示为

$\small h_\theta (x) = \theta _0+\theta _1x_1+\theta _2x_2+...+\theta _nx_n$

这个公式中有 $\small n+1$ 个参数和 $\small n$ 个变量，为了使得公式能够简化一些，引入 $\small x_0=1$ ，则公式转化为:

$\small h_\theta (x) = \theta _0x_0+\theta _1x_1+\theta _2x_2+...+\theta _nx_n$

这样是为了方便矩阵运算

此时模型中的参数是一个 $\small n+1$ 维的向量，任何一个训练实例也都是 $\small n+1$ 维的向量，特征矩阵的 $\small X$ 维度是 $\small m \times (n+1)$ 。因此公式可以简化为： $\small h_\theta (x)=\theta ^TX$ ，其中上标 $\small T$ 代表矩阵转置。

多变量梯度下降

与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，则这个代价函数是所有建模误差的平方和，即:

$\small J(\theta_1 ,\theta_2 ,...,\theta_n )=\frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

其中,

$\small h_\theta (x)=\theta ^TX= \theta _0+\theta _1x_1+\theta _2x_2+...+\theta _nx_n$

我们的目标和单变量线性回归问题中一样，是要找出使得代价函数最小的一系列参数。多变量线性回归的批量梯度下降算法为：

即：

求导数后得到：

当 $\small n>=1$ 时，

$\small {{\theta }_{0}}:={{\theta }_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{0}^{(i)}$

$\small {{\theta }_{1}}:={{\theta }_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{1}^{(i)}$

$\small {{\theta }_{2}}:={{\theta }_{2}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{2}^{(i)}$

我们开始随机选择一系列的参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直到收敛。

梯度下降法实践1-特征缩放 Feature Scaling

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。

以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。

解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间。最简单的方法是令 $\small x_n=\frac{x_n-\mu _n}{s_n}$ ，其中 $\small \mu_n$ 是平均值， $\small s_n$ 是标准差。

梯度下降法实践2-学习率

上次说到，梯度下降算法的每次迭代受到学习率的影响，如果学习率 $\small \alpha$ 过小，则达到收敛所需的迭代次数会非常高；如果学习率 $\small \alpha$ 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

可以考虑下面的一组学习率：

$\small \alpha =0.01,0.03,0.3,1,3,10$

特征和多项式回归

如房价预测问题，

$\small h_\theta (x)=\theta_0 +\theta_1\times frontage+\theta_2\times depth$

其中 $\small {x_{1}}=frontage$ (临街宽度)， $\small x_{2}}=depth$ (纵向深度), $\small x=frontage*depth=area$ (面积),则 $\small {h_{\theta}}\left( x \right)={\theta_{0}}+{\theta_{1}}x$ .线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如一个二次方模型： $\small h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}$ ,或者三次方模型 $\small h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}+{\theta_{3}}{x_{3}^3}$ 。

根据函数图形特性，我们还可以使：

$\small {{{h}}_{\theta}}(x)={{\theta }_{0}}\text{+}{{\theta }_{1}}(size)+{{\theta}_{2}}{{(size)}^{2}}$

或者：

$\small {{{h}}_{\theta}}(x)={{\theta }_{0}}\text{+}{{\theta }_{1}}(size)+{{\theta }_{2}}\sqrt{size}$

注意：如果我们采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。

正规方程

目前为止一直在学习梯度下降算法。但对于某些线性回归问题，正规方程方法是更好的解决方案。

例如对于下面的例子：

正规方程就是使用求导的方式来求最小的参数的，这一点和中学学的类似，即 $\frac{\partial }{\partial \theta _j}J(\theta _i)=0$ 。假设我们的训练集特征矩阵为（包含了 x_0=1 ）并且我们的训练集结果为向量，则利用正规方程解出向量

$\theta =(X^TX)^{-1}X^Ty$

如下图例子：

注意：对于那些不可逆的矩阵（通常是因为特征之间不独立，如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征，也有可能是特征数量大于训练集的数量），正规方程方法是不能用的。

正规方程与梯度下降比较

梯度下降	正规方程
需要选择学习率 $\alpha$	不需要 $\alpha$
需要多次迭代	一次运算得出
当特征数量大时也能较好适用	需要计算如果特征数量n较大则运算代价大，因为矩阵逆的计算时间复杂度为，通常来说当小于10000 时还是可以接受的
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型

正规方程的实现

import numpy as np
    
 def normalEqn(X, y):
    
   theta = np.linalg.inv(X.T@X)@X.T@y #X.T@X等价于X.T.dot(X)
    
   return theta

正规方程及不可逆性

对于 X^TX 结果不可逆原因是什么？怎么办呢？

例如，在预测住房价格时，如果是以英尺为尺寸规格计算的房子,是以平方米为尺寸规格计算的房子，同时，你也知道1米等于3.28英尺 ( 四舍五入到两位小数 )，这样，你的这两个特征值将始终满足约束： $x_1=x_2\ast (3.28)^2$ 。实际上，你可以用这样的一个线性方程，来展示那两个相关联的特征值，矩阵将是不可逆的。
在你想用大量的特征值，尝试实践你的学习算法的时候，可能会导致矩阵的结果是不可逆的。具体地说，在小于或等于的时候，例如，有等于10个的训练样本也有等于100的特征数量。

mxb1234567

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习笔记2

多变量线性回归(Linear Regression with Multiple Variables)多维特征在之前房价预测的基础上，现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为。符号说明特征的数量一个向量(vector),代表第个训练实例，是特征矩阵中的第行代表特征矩阵中第行的第个特征,...
复制链接

扫一扫

专栏目录