线性回归

线性回归
线性回归就是将输入项分别乘以一些常量,在将结果加起来得到输出。 假定输入数据存放在矩阵
x 中,而回归系数存放在向量 w 中。 那么预测结果可以通过Y=X的转置*W得出。所以我们求解线性回归模型的核心就在于求解w,如何求呢?首先,我们一定是希望预测出来的值和实际值之间的误差越小越好,所以我们评判w好坏,就可以采用实际值与真实值之差表示,但是这个差有正有负,为了避免正负相互抵消的情况,我们采用平方误差(也就是最小二乘法)

平方误差,我们也可以叫他损失函数。我们现在就是要以w为变量求解损失函数的最小值。

我们可以对w进行求导,令其为0,可得到我们所要求解w所需的计算公式。

最小二乘法: 最小二乘法是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。

  • 回归的一般方法

(1) 收集数据:采用任意方法收集数据。

(2) 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据。

(3) 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比。

(4) 训练算法:找到回归系数。

(5) 测试算法:使用R2或者预测值和数据的拟合度,来分析模型的效果。

(6) 使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

  • 示例:预测乐高玩具套装的价格

一种乐高套装基本上在几年后就会停产,但乐高的收藏者之间仍会在停产后彼此交易。Dangler喜欢为乐高套装估价,下面将用本章的回归技术帮助他建立一个预测模型。

(1) 收集数据:用Google
Shopping的API收集数据。

(2) 准备数据:从返回的JSON数据中抽取价格。

(3) 分析数据:可视化并观察数据。

(4) 训练算法:构建不同的模型,采用逐步线性回归和直接的线性回归模型。

(5) 测试算法:使用交叉验证来测试不同的模型,分析哪个效果最好。

(6) 使用算法:这次练习的目标就是生成数据模型。

岭回归
如果数据的特征比样本点还多应该怎么办?

是否还可以使用线性回归和之前的方法来做预测?答案是否定的,即不能再使用前面介绍的方法。这是因为在计算(X ^TX) ^−1

的时候会出错。

如果特征比样本点还多(n > m),也就是说输入数据的矩阵X不是满秩矩阵。非满秩矩阵在求逆时会出现问题。

为了解决这个问题,统计学家引入了岭回归(ridge regression)的概念,这就是第一种缩减方法。另外还有lasso法,该方法效果很好但计算复杂。第二种缩减方法称为前向逐步回归,可以得到与lasso差不多的效果,且更容易实现。

简单说来,岭回归就是在矩阵X^TX 上加一个λI从而使得矩阵非奇异,进而能对X^TX+λI

求逆。

其中矩阵I是一个m×m的单位矩阵,对角线上元素全为1,其他元素全为0。而λ是一个用户定义的数值。

在这种情况下,回归系数的计算公式将变成:
在这里插入图片描述

岭回归最先用来处理特征数多于样本数的情况,现在也用于在估计中加入偏差,从而得到更好的估计。这里通过引入λ来限制了所有w之和,通过引入该惩罚项,能够减少不重要的参数,这个技术在统计学中也叫做缩减(shrinkage)。.

缩减方法可以去掉不重要的参数,因此能更好地理解数据。此外,与简单的线性回归相比,缩减法能取得更好的预测效果。

与前几章里训练其他参数所用的方法类似,这里通过预测误差最小化得到λ:数据获取之后,首先抽一部分数据用于测试,剩余的作为训练集用于训练参数w。训练完毕后在测试集上测试预测性能。通过选取不同的λ来重复上述测试过程,最终得到一个使预测误差最小的λ。

.前向逐步回归

前向逐步回归算法可以得到与lasso差不多的效果,但更加简单。它属于一种贪心算法,即每一步都尽可能减少误差。一开始,所有的权重都设为1,然后每一步所做的决策是对某个权重增加或减少一个很小的值。

逐步线性回归算法的主要优点在于它可以帮助人们理解现有的模型并做出改进。当构建了一个模型后,可以运行该算法找出重要的特征,这样就有可能及时停止对那些不重要特征的收集。

最后,如果用于测试,该算法每100次迭代后就可以构建出一个模型,可以使用类似于10折交叉验证的方法比较这些模型,最终选择使误差最小的模型。

当应用缩减方法(如逐步线性回归或岭回归)时,模型也就增加了偏差(bias),与此同时却减小了模型的方差。

局部加权线性回归
在这里插入图片描述

  • 本章小结

与分类一样,回归也是预测目标值的过程。回归与分类的不同点在于,前者预测连续型变量,而后者预测离散型变量。回归是统计学中最有力的工具之一。在回归方程里,求得特征对应的最佳回归系数的方法是最小化误差的平方和。

岭回归是缩减法的一种,相当于对回归系数的大小施加了限制。另一种很好的缩减法是Lasso,Lasso难以求解,但可以使用计算简便的逐步线性回归方法来求得近似结果。缩减法还可以看做是对一个模型增加偏差的同时减少方差。偏差方差折中是一个重要的概念,可以帮助我们理解现有模型并做出改进,从而得到更好的模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值