网易云课堂-吴恩达机器学习-学习归纳-3-多变量线性回归

最新推荐文章于 2023-04-01 13:42:45 发布

Andrew Dang

最新推荐文章于 2023-04-01 13:42:45 发布

阅读量225

点赞数 1

分类专栏：吴恩达机器学习课程文章标签：多变量线性回归梯度下降特征缩放学习率选取

本文链接：https://blog.csdn.net/weixin_42049250/article/details/100085142

版权

吴恩达机器学习课程专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、多维特征

在https://blog.csdn.net/weixin_42049250/article/details/99758900中我们讨论了单变量的线性回归问
题，还拿预测房价的例子来说，在单变量线性回归的问题中，我们只有一个特征-------房子的面积；
假设，现在我们要考虑更多的特征，如卧室的数量、所在楼层、房子的使用年限等等，由此构建一个
含有多个特征的模型。

如下图中表格所示，每一行代表训练集中的一个样本，每一个样本有4个特征：面积、卧室数量、楼
层以及使用年限。在这里插入图片描述
$m$ 代表训练集中样本的个数，本例中 $m = 47$ ；

$n$ 代表特征的数量，本例中 $n = 4$ ；
$x^{(i)}$ 代表第 $i$ 个训练样本，是特征矩阵中的第 $i$ 行，是一个向量，例如 $x^{(2)} = \left[\begin{matrix}1416\\3\\2\\40\end{matrix} \right]$ ；

$x^{(i)}_j$ 代表第 $i$ 个训练样本的第 $j$ 个特征，也就是特征矩阵中第 $i$ 行第 $j$ 列的元素，例如 $x^{(2)}_2 = 3,x^{(4)}_1 = 2$ ；

对于有 $n$ 个特征的线性回归问题，我们给出如下假设： $h_{\theta}(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$

这个公式中有 $n + 1$ 个参数和 $n$ 个变量，为了使得公式能够简化一些，引入 $x_0=1$ ，则公式转化为： $h_{\theta}(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$

此时模型中的参数 $\theta$ 是一个 $n + 1$ 维的向量，每个训练样本也是个 $n + 1$ 维的向量，特征矩阵 $X$ 的维度是 $m * (n + 1)$ 。因此上面的公式可以简化为： $h_θ (x)=θ^TX$ ，其中上标 $T$ 代表矩阵的转置。

二、多变量梯度下降

单变量线性回归的代价函数：
$J(θ_0,θ_1)= \frac{1}{2m} \sum\limits_{i=1}^m(h_θ(x^{(i)} )-y^{(i)} )^2 ，其中：h_θ (x)=θ^TX=θ_0+θ_1x_1$
与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，这个代价函数是所有建模
误差的平方和，即： $J(θ_0,θ_1...θ_n )=\frac{1}{2m} \sum\limits_{i=1}^m(h_θ(x^{(i) } )-y^{(i) })^2$ ， $其中：h_θ (x)=θ^T X=θ_0+θ_1 x_1+θ_2 x_2+...+θ_n x_n$

我们的目标是要找出使得代价函数最小的一系列参数，多变量线性回归的批量梯度下降算法为：
$\theta_j := \theta_j - \alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1,...,\theta_n)$
即， $\theta_j := \theta_j - \alpha\frac{\partial}{\partial \theta_j}\frac{1}{2m} \sum\limits_{i=1}^m(h_θ(x^{(i) } )-y^{(i) })^2$
求导后得到： $\theta_j := \theta_j - \alpha\frac{1}{m} \sum\limits_{i=1}^m(h_θ(x^{(i) } )-y^{(i) })x_j^{(i)}$
注意：这里每个参数都是同步更新的。
当 $n > = 1$ 时，
$θ_0:=θ_0-\alpha \frac{1}{m} \sum\limits_{i=1}^m(h_θ(x^{(i) } )-y^{(i) })x_0^{(i)}$
$θ_1:=θ_1-\alpha \frac{1}{m} \sum\limits_{i=1}^m(h_θ(x^{(i) } )-y^{(i) })x_1^{(i)}$
$θ_2:=θ_2-\alpha \frac{1}{m} \sum\limits_{i=1}^m(h_θ(x^{(i) } )-y^{(i) })x_2^{(i)}$
我们开始随机选择一系列的参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直到收敛。

下面给出Python代码：

def computeCost(X, y, theta):
    inner = np.power(((X * theta.T) - y), 2)
    return np.sum(inner) / (2 * len(X))

三、梯度下降算法实践技巧----特征缩放

特征缩放(feature scaling)的思想大致是这样的：梯度下降算法中，在有多个特征的情况下，如果你能确保这些不同特征的值都处在一个相近的范围，这样梯度下降法就能更快地收敛。还是房价预测的例子，假如我们取两个特征，一个是房屋面积大小，它的取值在0到2000之间；另外一个是卧室的数量，这个值的取值范围在1到5之间。其代价函数 $J (θ)$ 是一个关于参数 $θ_0$ ， $θ_1$ 和 $θ_2$ 的函数。这里我们暂时不考虑 $θ_0$ ，并假想这个函数的参数只有 $θ_1$ 和 $θ_2$ 。如果 $x_1$ 的取值范围远远大于 $x_2$ 的取值范围的话，那么最终画出来的代价函数 $J (θ)$ 的图像就会呈现出像下图一样，是一种非常瘦长的椭圆形状，如果用这个代价函数来进行梯度下降的话，需要非常多次的迭代才能收敛。
在这里插入图片描述
那么如何解决这个问题呢？

举例来说，把特征 $x_1$ 定义为房子的面积大小除以2000，并且把 $x_2$ 定义为卧室的数量除以5。如此一来，表示代价函数 $J (θ)$ 的轮廓图的形状偏移就会没那么严重。如果用这样的代价函数来进行梯度下降的话，算法会找到一条更快捷的路径通向全局最小，而不是像刚才那样，沿着一条让人摸不着头脑的路径、一条复杂得多的轨迹来找到全局最小值，如下图所示。
在这里插入图片描述
因此，通过特征缩放，通过“消耗掉”这些值的范围（在这个例子中，我们最终得到的两个特征 $x_1$ 和 $x_2$ 都在 0 和 1 之间），得到的梯度下降算法就会更快地收敛。更一般地，我们在执行特征缩放时，将特征的取值约束到-1 到 +1 的范围内（注意：特征 $x_0$ 总是等于1的，已经在这个范围内了）。但对其他的特征，我们可能需要通过除以不同的数来让它们处于同一范围内。

举一些例子来看看哪些情况下要进行特征缩放，哪些不用特征缩放：
如果你有一个特征 $x_1$ ，它的取值在 0 到 3 之间，非常接近 -1 到 +1 的范围，不用特征缩放。如果你有另外一个特征，取值在-2 到 +0.5 之间，也非常接近 -1 到 +1 的范围，也不用特征缩放。但如果你有另一个特征，假如它的范围在 -100 到 +100 之间，那么这个范围跟 –1 到 +1 就有很大不同了，所以，这可能是一个不那么好的特征，需要进行特征缩放。类似地，如果你的特征在一个非常非常小的范围内，比如 -0.0001 和 +0.0001 之间，那么这同样是一个比 –1 到 +1 小得多的范围，因此，我们同样会认为这个特征也不太好。

所以，你所认可的范围可以大于或者小于 -1 到 +1 的范围，但是也别太大或者太小到不可以接受的范
围。通常不同的人有不同的经验，但是我们一般是这么考虑的：如果一个特征是在 -3 到 +3 的范围内，那么你应该认为这个范围是可以接受的。但如果这个范围大于了 -3 到 +3 的范围，我们可能就要
开始注意了。如果它的取值在 -1/3 到 +1/3 的话，我们觉得也还不错，可以接受，或者是 0 到 1/3 或 -1/3 到 0 这些典型的范围，我们都认为是可以接受的。但如果特征的范围取得很小的话，你就要开始考虑进行特征缩放了。

总的来说，不用过于担心你的特征是否在完全相同的范围或区间内，只要他们足够接近的话，梯度下降法就会正常地工作。在特征缩放中，除了将特征除以最大值以外，有时我们也会进行一个称为均值归一化的工作(mean normalization)。如果你有一个特征 $x_i$ ，你就用 $x_i - μ_i$ 来替换它，通过这样缩放以后，所有特征的均值都变成了0，（ $μ_i$ 指所有 $x_i$ 的平均值）。

很明显，我们不需要把这一步应用到 $x_0$ 中，因为 $x_0$ 总是等于1的，所以它不可能有为0的平均值。但是对其他的特征来说，比如房子的大小，取值介于 0 到 2000，并且假设房子面积的平均值等于1000，那么你可以用这个公式将 $x_1$ 的值变为 $x_1$ 减去平均值 $μ_1$ ，再除以2000。类似地，如果你的房子有五间卧室，并且平均一套房子有两间卧室，那么你可以使用这个公式来归一化你的第二个特征 $x_2$ 。

更一般地：令 $x_n=(x_n-μ_n)/s_n$ 来替换原来的特征 $x_n$ ，其中 $μ_n$ 是平均值， $s_n$ 是标准差。

这类公式将把你的特征变成如下这样的范围，也许不是完全这样，但大概是这样的范围：

-0.5 < $x_i$ < 0.5

四、梯度下降算法实践技巧----选取学习率

迭代次数和代价函数之间的图像，如下图所示：
在这里插入图片描述
如果梯度下降算法正常工作，那么每一步迭代之后 $J (θ)$ 都应该下降。从上图的这条曲线中可以看到，当迭代次数达到300到400步之间时， $J (θ)$ 并没有下降多少。当达到400步迭代时，这条曲线看起来已经很平坦了。也就是说，400步迭代后，梯度下降算法基本上已经收敛了。对于每一个特定的问题而言，梯度下降算法所需的迭代次数可以相差很大。也许对于某一个问题，梯度下降算法只需要30步迭代就可以收敛；然而换一个问题，也许梯度下降算法就需要3000步迭代；再对于另一个机器学习问题而言，则可能需要三百万步迭代。实际上，我们很难提前判断梯度下降算法需要多少步迭代才能收敛。因此，通常我们需要画出这类曲线，画出代价函数随迭代步数增加的变化曲线。

通常，我们可以通过看这种曲线，来试着判断梯度下降算法是否已经收敛。也有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值（例如0.001）进行比较，但一般来说，看图像的方法更好一些。

此外，这种曲线图也可以在算法没有正常工作时，提前警告你，如下图：
在这里插入图片描述
左上角这张图，代价函数 $J (θ)$ 随着迭代步数的增加在不断上升，表明梯度下降算法没有正常工作。对于这样的曲线，通常意味着你应该使用较小的学习率 $\alpha$ 。左下角这张图，代价函数 $J (θ)$ 随着迭代次数，先下降，然后上升，接着又下降，然后又上升，如此往复。解决这种情况的方法，通常同样是选择较小 $\alpha$ 值。对于线性回归问题，只要学习率选择得足够小，每次迭代之后，代价函数 J(θ)都会下降。因此如果代价函数没有下降，可以认为是学习率选择过大造成的。此时，你就应该尝试一个较小的学习率。当然，也不能选得太小，因为如果这样，梯度下降算法可能收敛得很慢。

总结：
1、梯度下降算法的每次迭代受到学习率的影响，如果学习率 $\alpha$ 过小，则达到收敛所需的迭代次数会非常高；如果学习率 $\alpha$ 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

2、为了调试所有这些情况，绘制 $J (θ)$ 随迭代步数变化的曲线，通常可以帮助我们弄清楚到底发生了什么。
当我们运行梯度下降算法时，通常会尝试一系列 $\alpha$ 值，如：
$α$ = 0.01，0.03，0.1，0.3，1，3，10
在实践中，怎么选取一个比较好的学习率呢？

通常会尝试一系列 $\alpha$ 值，你可以先把学习速率设置为0.01，然后观察曲线的走向，如果 $J (θ)$ 在减小，那你可以逐步地调大学习速率，试试0.03，0.1，0.3，1.0….如果 $J (θ)$ 在增大，那就得减小学习速率，试试0.003，0.001，0.0003….经过一番尝试之后，你可以大概确定学习速率的合适的值。