林轩田-机器学习基石课堂笔记（九） Linear Regression

最新推荐文章于 2021-03-24 10:50:43 发布

SherryChu1026

最新推荐文章于 2021-03-24 10:50:43 发布

阅读量681

点赞数

分类专栏：机器学习基石笔记

本文链接：https://blog.csdn.net/sinat_33397120/article/details/79372729

版权

机器学习基石笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1、Linear Regression Problem

我们之前的课程讲到我们在二元分类情况下证明的VC bound是可以用在不同的error measure和有noise的情形，当然也包括我们regression。想象我们已经有了bound，那么演算法上我们应该怎么设计呢?

回到我们之前讲的银行发信用卡的例子，如果今天银行不是要决定给不给用户发信用卡，而是要决定给某个用户多少的额度，那么这就不是一个是非题了，输出的不是+1或者-1而是一个具体的实数，因此我们可以看到regression问题的特点就是其输出空间是整个实数，当然在信用卡这个问题上，输出空间为正实数。那么当输出空间为实数时，我们的hypothesis会长什么样子呢？

比如我们有顾客的一部分资料，我们将这些资料做一个加权处理，算一个分数，用这个分数来做运算。我们希望得出的这个分数与我们决定给用户的信用卡额度十分接近，这就与感知机不同了，因为感知机在算出分数后还要决定它是+1还是-1。

linear regression的hypothesis的图形如下：（左边输入空间为一维，右边输入空间为为二维）

可以看到，回归分析的目的是找出一条线或者一个平面来描述资料点。这些红色的部分我们叫做误差或者余数（residuals）。

传统上，我们要衡量余数小不小，一般用squared error进行错误衡量。

注意我们现在讨论的是可能有noise的环境，除了输入x要从某个distribution出来，我们的输出y也要从某个distribution出来，然后两者结合起来，我们才可以说(x,y)是服从联合概率分布的。

接下来我们就要考虑怎么最小化Ein。

2、Linear Regression Algorithm

我们的目标是找到合适的w使得Ein(w)越小越好。为了方便计算，首先将向量w转置乘向量x转化为向量x转置乘向量w（向量内积符合交换律），再将平方求和转化为向量的模的平方，最后整理公式（d+1是因为加了x0的一列向量）。

我们发现Ein关于w的图形为一个连续可微的凸函数（注意函数凹凸性与同济版高数书中的函数凹凸性相反），因此我们要找到最小的Ein，即找到对w梯度为0的位置，记为wLin。

将Ein(w)展开（Xw为一个列向量，y也为一个列向量，故其差为一个列向量，该列向量的模的平方为其内积，因此可以表示为向量转置乘向量的形式）

假设为w只有一个维度，展开时如左图；当w为一个向量时，展开如右图（对应左图）。

我们现在想要找到梯度为0的点，如果A矩阵可逆，很容易可以得到wLin。

pseudo-inverse是伪逆，因为输入矩阵X（维度为(d+1)*N）很少情况下是方阵（N=d+1）。但这种伪逆矩阵的形式和方阵中的逆矩阵具有很多相似的性质，因此才有此名。矩阵A一般情况下是可逆的，因为机器学习过程中，通常都满足N>>d+1，因此A中存在足够的自由度使其满足可逆的条件。

当矩阵A不可逆时，Ein的式子可看做线性代数中Aw=b求w的问题，实际上此时可以得到许多满足条件的解，只需要通过其他方式定义伪逆矩阵，然后求出满足条件的wLin。

总结一下linear Regression的演算法：

3、Generalization Issus

我们可能会想，这种求解权重向量的方法真的是机器学习嘛？有两种观点；1、这不是机器学习，更接近于一种分析，并且在求解过程中没有相对提升Ein或者Eout的准确率；2、这是机器学习，因为从结果上来看，Ein和Eout都实现了最小化，且在实际计算过程中，求解伪逆矩阵并不是一步得到结果，而是需要几次迭代。总结来说，只要Eout(w)结果足够好，那么学习就发生了。