NG——线性回归

最新推荐文章于 2020-12-19 19:10:57 发布

codeee

最新推荐文章于 2020-12-19 19:10:57 发布

阅读量220

点赞数

本文链接：https://blog.csdn.net/codeee/article/details/83279670

版权

单变量线性回归

以房价为例：

x为输入样本，包含房子的多项信息，如面积，楼层等。此处讨论的为单变量线性回归，则样本中只包含一条信息，假设为面积
m表示输入样本的数量
h(x)为假设函数，即用来预测房子的价格的函数。根据输入的样本x，预测出房子的价格。最初的假设函数选择简单的一次函数，为 $h(x)=θ_0+θ_1x$
y为当前输入的样本x的实际房价
$x^i$ 表示第i个样本，这里表示某一房子的面积， $y^i$ 表示其对应的实际房价， $h(x^i)$ 为对应的预测的房价

$θ_0,θ_1$ 为参数，我们需要找到合适的 $θ_0,θ_1$ ，使得我们的预测结果更为准确，换言之就是使 $h(x^i)-y^i$ 的值尽可能的接近0。不难想到，我们需要求出合适的 $θ_0,θ_1$ ，使 $\frac1{2m}\sum_1^m(h(x^i)-y^i)^2$ 尽可能小（差的平方和最小）。我们将此称之为代价函数（误差函数），记作J( $θ_0,θ_1$ )= $\frac1{2m}\sum_{i=1}^m(h(x^i)-y^i)^2$ 在这里，我们要求出 $θ_0,θ_1$ ，可以使用梯度下降算法。

梯度下降算法：首先给定 $θ_0,θ_1$ 初始值，一般都取为0。显然，此时的J( $θ_0,θ_1$ )未取到最小值。因此，改变 $θ_0,θ_1$ 的值，使得J( $θ_0,θ_1$ )的值不断变化，直到取到最小值或局部最小值。此处，我们直接给出梯度下降算法中θ的更新公式： $θ_j=θ_j-α\frac{\partial J(θ_0,θ_1)}{\partial θ_j}$ （j=0,1），此处的α称为学习率，这个参数决定了 $θ_0，θ_1$ 改变的快慢（这个公式在NG的视频里已经讲得很清楚了，在这边写下来也比较麻烦，就不赘述了）。需要注意的是， $θ_0,θ_1$ 这两个参数在更新时要同步更新，即取临时参数

temp0= $θ_0-α\frac{\partial J(θ_0,θ_1)}{\partial θ_j}$
temp1= $θ_1-α\frac{\partial J(θ_0,θ_1)}{\partial θ_j}$
$θ_0=temp0$
$θ_1=temp1$

将J( $θ_0,θ_1$ )= $\frac1{2m}\sum_{i=1}^m(h(x^i)-y^i)^2$ 和 $h(x_i)=θ_0+θ_1x_i$ 带入上式，求出偏导数，则

$θ_0=θ_0$ -α $\frac1m\sum_{i=1}^m(θ_0+θ_1x_i-y^i)*x_0(x_0=1)$
$θ_1=θ_1$ -α $\frac1m\sum_{i=1}^m(θ_0+θ_1x_i-y^i)*x_i$

多元线性回归

类似的，以房价为例：

面积	卧室	楼层	房屋年龄	价格
100	2	8	20	150
120	2	14	30	200
200	3	24	25	400
…	…	…	…	…

x为输入样本，包含房子的多项信息，如面积，楼层等，此处讨论的为多变量线性回归
n表示的是x中房子信息的数目，即表示特征量的数目，此处n=4
m表示输入样本的数量
h(x)为假设函数，即用来预测房子的价格的函数。根据输入的样本x，预测出房子的价格。此处的假设函数应设为 $h(x)=θ_0+θ_1x_1+θ_2x_2+θ_3x_3+...+θ_nx_n$
y为当前输入的样本x的实际房价
$x^{(i)}$ 表示第i个样本，此处为一个列向量，如 $x^{(2)}$ =
$\begin{bmatrix} 120 \\ 2 \\ 14\\ 30 \end{bmatrix} \tag{4}$
$x^{(i)}_j$ 表示第i个样本的第j个特征值，如 $x^{(2)}_3$ =14； $y^i$ 表示其对应的实际房价， $h(x^i)$ 为对应的预测的房价

为了方便表达，对于 $h(x)=θ_0+θ_1x_1+θ_2x_2+θ_3x_3+...+θ_nx_n$ ，我们可认为还存在 $x_0$ =1，则 $h(x)=θ_0x_0+θ_1x_1+θ_2x_2+θ_3x_3+...+θ_nx_n$ ，因此， $x^{(i)}_0$ =1，即对于任意样本中， $x_0$ 都为1。此时，
取X= $\begin{bmatrix} x_0 \\ x_1 \\ x_2\\ .\\ .\\ .\\ x_n \end{bmatrix} \tag{4}$
取θ= $\begin{bmatrix} θ_0 \\ θ_1 \\ θ_2\\ .\\ .\\ .\\ θ_n \end{bmatrix} \tag{4}$
则h(x)= $θ^TX$ 。

类似的，我们可以得出h(x)= $θ^TX=θ_0x_0+θ_1x_1+θ_2x_2+θ_3x_3+...+θ_nx_n$ ，代价函数J(θ)= $J(θ_0,θ_1...θ_n)$ = $\frac1{2m}\sum_{i=1}^m(h(x^i)-y^i)^2$ θ的更新公式为 $θ_j=θ_j-α\frac{\partial J(θ)}{\partial θ_j}=θ_j-α$ $\frac1m(h_θ(x^i)-y^i)*x^{(i)}_j$ （同步更新）。

特征缩放

在处理不同的、大量的数据时，这些数据的范围可以大不相同。为了使梯度下降的过程更快速并使预测结果尽可能准确，我们可以通过对特征值进行特征缩放（归一化），将特征值都映射到某一小区间内，如[-1，1]。例如： $x_1$ 的范围是0~1000，则对 $x_1$ 的缩放可以作如下处理： $x_1$ = $\frac{x_1-μ_1}{max-min}$ （其中 $μ_1$ 为样本x的均值，max和min分别为样本的最大值和最小值）。

多项式回归

对于实际中的某些数据集，其实直线并不能很好的拟合这些数据。此时，这根据具体情况选择合适的模型，例如二次函数，三次函数等等。常见的处理模型： $h(x)=θ_0+θ_1x$ ， $h(x)=θ_0+θ_1x+θ_2x^2$ ， $h(x)=θ_0+θ_1x+θ_2x^2+θ_3x^3$ ， $h(x)=θ_0+θ_1x+θ_2\sqrt{x}$ 。在实际应用中，我们需要从合适的角度寻找特征，找到更符合数据的模型。

正规方程

在上面讲述的线性回归中，我们需要通过梯度下降，不断迭代，求出θ的值，使得代价函数J(θ)最小。在这里，我们介绍一种更简单的方法来求得θ。
首先，我们需构建一个矩阵X，称之为设计矩阵（包含了样本的所有特征值）。X= $\begin{bmatrix} (x^{(1)}) ^T \\ (x^{(2)}) ^T \\ .\\ .\\ .\\ (x^{(m)}) ^T \end{bmatrix} \tag{4}$
X为m*(n+1)维矩阵。
另y= $\begin{bmatrix} y^0 \\ y^1 \\ .\\ .\\ .\\ y^n \end{bmatrix} \tag{4}$
举个具体的例子，当前数据集如下表（共有4个输入）

面积	卧室	楼层	房屋年龄	价格
100	2	8	20	150
120	2	14	30	200
200	3	24	25	400
150	2	5	12	300

为每一个样本添加 $x^{(i)}_0=1$

$x_0$	面积	卧室	楼层	房屋年龄	价格
1	100	2	8	20	150
1	120	2	14	30	200
1	200	3	24	25	400
1	150	2	5	12	300

则设计矩阵X= $\begin{bmatrix} 1，100，2，8，20\\ 1，120，2，14，30\\ 1，200，3，24，25\\ 1，150，2，5，12 \end{bmatrix}$
y= $\begin{bmatrix} 150 \\ 200 \\ 400\\ 300 \end{bmatrix} \tag{4}$
则θ= $X^TX)^{-1}X^Ty$ （尚未推导），通过此公式求出的θ可使得代价函数J(θ)最小化。而且，在用正规方程时，无需对数据集进行特征缩放。