【Machine Learning, Coursera】机器学习Week2 Linear Regression with Multiple Variables

最新推荐文章于 2022-02-03 15:49:21 发布

Aki-Z

最新推荐文章于 2022-02-03 15:49:21 发布

阅读量360

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42395916/article/details/80778637

版权

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

Linear Regression with Multiple Variables (a.k.a multivariate linear regression)

Task: Given a training set of (x1, x2, x3, x4, y)=(housing size, number of bedrooms, number of floors, age of home, housing price), estimate housing price y using x1, x2, x3, x4.

1. Model

1.1 Notation

见上图
$\\$

1.2 Hypothesis

对于上述房价预测问题，可以建立如下多元线性回归模型：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ 4 x 4

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$

简单起见，定义 $x_0=1$ ，可将式子改写成向量形式：

h θ (x) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ 4 x 4 = θ T x

$h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4=\theta^Tx$

$\theta$ 和x均为n+1维列向量。
$\\$
题外话：不同于单变量线性回归，这里涉及到多个变量，因此无法通过作图直观地判断自变量和因变量之间的关系，也就难以判断线性模型是否为最优。在实践中，可以通过散点图矩阵、相关系数等判断线性模型是否合适，也可以通过 $R^2$ 等拟合优度指标看模型拟合后的效果。在教学视频中，Ng并没有强调这一点，只需知道建立线性模型不是唯一的途径即可。
$\\$

1.3 Cost function and Gradient Descent

多元线性回归的代价函数与梯度下降和单变量线性回归本质上是相同的，只是把参数写成了向量形式.
Cost function:

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta) = \dfrac {1}{2m} \displaystyle \sum_{i=1}^m \left (h_\theta(x^{(i)}) - y^{(i)} \right)^2$

Gradient Descent:
$\qquad\qquad$ Repeat until convergence {

θ j : = θ j - α \partial \partial θ j J (θ)

$\quad\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)\qquad$

$\qquad\qquad\qquad\qquad$ }

$\qquad\qquad$ (simultaneously update for every j=0,…,n)

$\\$

单变量和多变量线性回归梯度下降的比较：
这里写图片描述

$\\$

2. Gradient Descent in Practice

2.1 Feature Scaling

多元线性回归涉及的多个变量可能不在一个数量级，如例子中的房屋面积x1的取值区间可能为0-2000，而卧室数量x2取值范围为0-5。在梯度下降的过程中，这种变量量级的差异会导致不同参数梯度下降速度不同，量级小的下降快，量级大的下降慢，这会降低算法收敛的速度。对于一些对数据量纲敏感的机器学习算法，如之后会学到的SVM，训练数据量级相差过大会显著影响运行结果。因此，在实践中要对数据进行预处理。
最常用的数据预处理方法是特征缩放(feature scaling)，用来标准化变量的取值范围。其基本思想是用变量值除以其全距(range)，消除量纲的影响，将不同变量缩放到相同或相近的取值区间内。理想的缩放区间是[-1,1]或者[-0.5,0.5]，但这并不是硬性要求。例如，可对本例中的x1和x2进行以下处理：

x 1 = s i z e ( f e e t 2 ) 2000 x 2 = n u m b e r o f b e d r o o m s 5

$x_1=\frac{size(feet^2)}{2000}\\ x_2=\frac{number\space of\space bedrooms}{5}$

在用原值除以其全距后，x1和x2的取值区间均为[0,1].
$\\$
均值归一化(mean normalization)常和特征缩放结合起来使用，即用原变量减去其均值后再除以全距（也可以除以标准差），使得新变量的均值为零：

x' i = x i - μ i r a n g e （ 不 用 对 x 0 做 均 值 归 一 化 处 理 ）

$x_i’ = \frac{x_i-\mu_i}{range}（不用对x_0做均值归一化处理）$
在对数据进行特征缩放和均值归一化处理后，梯度下降会更快找到最优解。

$\\$

2.2 Learning Rate

θ j : = θ j - α \partial \partial θ j J (θ)

$\quad\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)\qquad$

在上一节我们已经看到，不合适的学习率α会导致程序运行缓慢甚至出现错误。

在实践中，如何判断α的选择是否合适？

最直观的方法是以每次迭代更新后的代价函数 $J(\theta)$ 对迭代数作图，如果每次迭代 $J(\theta)$ 都在下降，说明梯度下降运行正常。当 $J(\theta)$ 的减小值小于 $10^{-3}$ 时，可认为算法收敛。
这里写图片描述
梯度下降错误运行时的图像：

批注：右侧图像的x轴应为θ而非No. of iterations