线性回归和梯度下降_线性回归模型数据里面有一两个突然大幅度下降还可以用嘛-CSDN博客

本文链接：https://blog.csdn.net/kwame211/article/details/81098566

在上一章我们说到，机器学习中主要的两个任务就是回归和分类。如果读者有高中数学基础，我们很容易回忆到我们高中学习过的一种回归方法——线性回归。我们将这种方法泛化，就可以得到机器学习中的一种常见模型——线性模型，线性模型是监督学习的一种。
我们已经说过，我们要从数据集中训练出模型，每个数据可以视为（属性，标签）二元组。其中属性可以为属性向量。
假设给定具有n个属性的属性向量的数据 x⃗ =(x1,x2,x3…xn)x→=(x1,x2,x3…xn)，我们利用属性的线性组合来进行预测，即

f(x)=w1x1+w2x2+w3x3+⋯+wnxn+bf(x)=w1x1+w2x2+w3x3+⋯+wnxn+b

我们可以将其写成向量形式

f(x)=wTx+bf(x)=wTx+b

其中w=(w1,w2,w3…wn)w=(w1,w2,w3…wn)，w和b就是该模型中我们要求的参数，确定w和b，该模型就得以确定。
我们将这样的模型称为线性模型，不得不提的是，线性模型并不是只能进行线性分类，它具有很强的泛化能力，我们后面会提到。

属性转换

在进行建模之前，我们要先对数据集进行处理，使得其适合进行建模。
我们注意到，在线性模型中，属性值都是实数，那么会出现以下两种需要进行转化的情况
- 属性离散，但是有序关系（可以比较）。例如身材的过轻，正常，肥胖，过于肥胖，可以被编码为-1,0,1,2，从而转化为实数进行处理。
- 属性离散，但是无序关系（不可比较）。例如国籍的中国人，美国人，日本人。我们可以将取值有k种的值转化为k维向量，如上例，可以编码为 (1,0,0),(0,1,0),(0,0,1)(1,0,0),(0,1,0),(0,0,1)。

单变量线性回归

如果 x=(x1,x2,x3…xn)x=(x1,x2,x3…xn)中n= 1，此时x为一个实数，线性回归模型就退化为单变量线性回归。我们将模型记为

f(x)=wx+bf(x)=wx+b

其中w,x,b都是实数,相信这个模型大家在高中都学习过。在这里我们有两种方法求解这个模型，分别是最小二乘法和梯度下降法。
我们先定义符号，xixi 代表第i个数据的属性值，yiyi是第i个数据的标签值（即真值），f是我们学习到的模型，f(xi)f(xi)即我们对第i个数据的预测值。
我们的目标是，求得适当的w和b，使得S最小，其中S是预测值和真值的差距平方和，亦称为代价函数，当然代价函数还有很多其他的形式。

minS=12n∑i=1n(f(xi)−yi)2minS=12n∑i=1n(f(xi)−yi)2

其中的1n1n只是将代价函数值归一化的系数。

最小二乘法

最小二乘法不是我们在这里要讨论的重点，但也是在很多地方会使用到的重要方法。
最小二乘法使用参数估计，将S看做一个关于w和b的函数，分别对w和b求偏导数，使得偏导数为0，由微积分知识知道，在此次可以取得S的最小值。由这两个方程即可求得w和b的值。（此处省略过程）
求得

w=∑ni=1yi(xi−x¯¯¯)∑ni=1x2i−1m(∑ni=1xi)2w=∑i=1nyi(xi−x¯)∑i=1nxi2−1m(∑i=1nxi)2

b=y¯¯¯−bx¯¯¯b=y¯−bx¯

其中y¯¯¯，x¯¯¯y¯，x¯分别是y和x的均值

梯度下降法

我们刚刚利用了方程的方法求得了单变量线性回归的模型。但是对于几百万，上亿的数据，这种方法太慢了，这时，我们可以使用凸优化中最常见的方法之一——梯度下降法，来更加迅速的求得使得S最小的w和b的值。
S可以看做w和b的函数 S(w，b)S(w，b)，这是一个双变量的函数，我们用matlab画出他的函数图像，可以看出这是一个明显的凸函数。
这里写图片描述
梯度下降法的相当于我们下山的过程，每次我们要走一步下山，寻找最低的地方，那么最可靠的方法便是环顾四周，寻找能一步到达的最低点，持续该过程，最后得到的便是最低点。
对于函数而言，便是求得该函数对所有参数（变量）的偏导，每次更新这些参数，直到到达最低点为止，注意这些参数必须在每一轮一起更新，而不是一个一个更新。
过程如下：

给w、b随机赋初值,一般可以都设为0给w、b随机赋初值,一般可以都设为0

wnew=w−a∂S(w,b)∂w，bnew=b−a∂S(w,b)∂bwnew=w−a∂S(w,b)∂w，bnew=b−a∂S(w,b)∂b

w=wnew,b=bneww=wnew,b=bnew

带入真正的表达式，即为

w0=w0−a1m∑i=1n(f(xi)−yi),w0是常数项w0=w0−a1m∑i=1n(f(xi)−yi),w0是常数项

wj=wj−a1m∑j=1n(f(xi)−yi)xi,j∈{1,2,3⋯n}wj=wj−a1m∑j=1n(f(xi)−yi)xi,j∈{1,2,3⋯n}

其中a为学习率，是一个实数。整个过程形象表示便是如下图所示，一步一步走，最后达到最低点。
参考图片
需要说明以下几点：
- a为学习率，学习率决定了学习的速度。
- 如果a过小，那么学习的时间就会很长，导致算法的低效，不如直接使用最小二乘法。
- 如果a过大，那么由于每一步更新过大，可能无法收敛到最低点。由于越偏离最低点函数的导数越大，如果a过大，某一次更新直接跨越了最低点，来到了比更新之前更高的地方。那么下一步更新步会更大，如此反复震荡，离最佳点越来越远。以上两种情况如下图所示
这里写图片描述
- 我们的算法不一定能达到最优解。如上图爬山模型可知，如果我们初始位置发生变化，那么可能会到达不同的极小值点。但是由于线性回归模型中的函数都是凸函数,所以利用梯度下降法，是可以找到全局最优解的，在这里不详细阐述。

多变量线性回归

如果数据中属性是一个多维向量， x⃗ =(x1,x2,x3…xn)x→=(x1,x2,x3…xn),那么该回归模型称为多变量线性回归。也就是一般意义上的线性回归模型。
我们先定义符号，x⃗ ix→i 代表第i个数据的属性值，它是一个向量，xjixij表示第i个数据的第j个属性，它是一个实数，yiyi是第i个数据的标签值，也是实数。f是我们学习到的模型，f(x⃗ i)f(x→i)即我们对第i个数据的预测值。
我们建立的模型为：

f(x⃗ i)=w⃗ T⋅x⃗ +bf(x→i)=w→T⋅x→+b

我们的目标是，求得适当的 w⃗ w→和b，使得S最小，其中S是预测值和真值的差距平方和，亦称为代价函数，当然代价函数还有很多其他的形式。

minS=12n∑i=1n(f(x⃗ i)−yi)2minS=12n∑i=1n(f(x→i)−yi)2

其中的1n1n只是将代价函数值归一化的系数。

特征缩放

由于x⃗ x→具有很多维的特征，每一维的特征大小可能相差甚多，这样会大大影响学习的速度。假如房价范围0-10000000，房子大小范围1-200，那么这两个特征学习到的系数大小会差很多倍，而学习率必须按照最小的系数来进行设定，则大系数的收敛会非常慢。
为了避免这种情况，我们使用了特征缩放将每个特征的值进行处理，使之在[-1,1]之间，当然，原本范围就于此在一个数量级的特征，也可以不进行处理。处理公式如下：

xi=xi−x¯¯¯xmax−xminxi=xi−x¯xmax−xmin

或者

xi=xi−x¯¯¯σxi=xi−x¯σ

其中σσ为数据标准差。

正规方程法

对于多元线性回归而言，正规方程法是一种准确的方法，就像最小二乘法对于单变量线性回归一样。
为了使形式更加简化，我们做以下符号设定

X⃗ =⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢11⋯1x11x12⋯x1nx21x22⋯x2nx31…x32…⋯x3n…xn1xn2xnn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥(3)(3)X→=[1x11x12x13…x1n1x21x22x23…x2n⋯⋯⋯⋯1xn1xn2xn3…xnn]

由此，我们可以将S写成另一种形式，定义如下

S1=(y⃗ −X⃗ ⋅w⃗ )T(y⃗ −X⃗ ⋅w⃗ )S1=(y→−X→⋅w→)T(y→−X→⋅w→)

请注意，S1S1和S的区别仅仅在于它没有1n1n的系数，而该系数是一个定值，故最小化的目标和过程是一样的，我们在此要将S1S1最小化。
同理，我们将S1S1视为w⃗ w→的函数，对于w⃗ w→求导数，得到取得最小值时的w⃗ w→的值，便是我们得到的结果，记为w⃗ 1w→1

w⃗ 1=(X⃗ TX⃗ )−1X⃗ Ty⃗ w→1=(X→TX→)−1X→Ty→

该方法得到了为准确值，即在我们给定条件下的最优解，但是该方法有两个弊端：
- 需要计算(X⃗ TX⃗ )−1(X→TX→)−1，相对于矩阵规模n而言，算法复杂度是O(n3), n非常大时, 计算非常慢，甚至根本无法完成。
- 可能出现矩阵不可逆的情况，在这里不进行数学上的分析，但是可以说明，以下两种情况容易导致矩阵不可逆。
- 我们使用了冗余的特征，例如我们选取的两个特征始终保持倍数关系，则这两个特征向量线性相关。此时应该去除冗余的向量。
- 我们使用了太多的特征(特征的数量超过了样本的数量).，也可以理解为样本的数量太少，对于这种情况我们可以删掉一些特征或者使用正则化（在下一篇文章中会讲到）。

梯度下降法

此处的梯度下降法和之前一元线性回归的梯度下降法基本相同，无非是一元线性回归只有两个需要求的参数，而多元线性回归中有多个待求参数。其余的只需要将导数项换掉即可。最终得到的式子如下：

w0=w0−a1m∑i=1n(f(xi)−yi),w0是常数项w0=w0−a1m∑i=1n(f(xi)−yi),w0是常数项

wj=wj−a1m∑i=1n(f(xi)−yi)xji,j∈{1,2,3⋯n}wj=wj−a1m∑i=1n(f(xi)−yi)xij,j∈{1,2,3⋯n}

与正规方程法相比，梯度下降法当有大量特征时, 也能正常工作，仍可以在可接受的时间内完成。

泛化

之前我们提到过，线性模型并不是只能进行线性分类，它具有很强的泛化能力，如果仅仅使用在此之前的单元和多元线性回归，我们只能得到多维空间的高维平面，为了进一步增强泛化能力，我们可以引入幂次项。
比如我们原来有只有一个特征x1x1，我们现在令x2=x21x2=x12,就人为的引入了第二个特征，拥有更强的拟合能力。
我们还可以引入两个特征的交叉项，使得线性模型更强大。
例如，我们原本只有一个模型：

y=w1x1+w2x2y=w1x1+w2x2

我们引入x3=x21,x4=x22,x5=x1x2x3=x12,x4=x22,x5=x1x2，人为引入三个变量，我们的模型变为：

y=w1x1+w2x2+w3x3+w4x4+w5x5y=w1x1+w2x2+w3x3+w4x4+w5x5

也就是说，很多复杂的模型都可以转化为线性模型进行建模。
但是，我们也要防范过拟合问题，过多的人为特征很容易导致过拟合，我们将在下一个章节详细讨论。