回归学习--“理解”数据

最新推荐文章于 2024-01-30 17:18:39 发布

ifruoxi

最新推荐文章于 2024-01-30 17:18:39 发布

阅读量578

点赞数

文章标签：回归学习岭回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ifruoxi/article/details/53815951

版权

我们在上一接提到了：如果数据的特征比样本点多，一般加入正则化，这种方法称之为“岭回归”，通过缩减系数来理解数据。
简单来说，岭回归就是在矩阵 $X^{T}X$ 上加入一个 $\lambda I$ 正则项来使得矩阵非奇异（可逆）,其中I是单位矩阵，则回归系数的jisuango9ngshi变为：

w * = (X T X + λ I) - 1 X T y

$w^{*} = (X^{T}X + \lambda I)^{-1}X^{T}y$
岭回归最先用来处理特征数多于样本数的情况，现在也可以用此法来在估计中加入偏差，从而达到更好的估计。

λ $\lambda$ 的引入限制了所有w之和，能够减少不重要的参数。（统计学中称之为缩减）
这里写图片描述

这里写图片描述

上面的函数用来计算回归系数（在一个 $\lambda$ 下），为了使用岭回归和缩减技术，首先要对特征进行标准处理化（归一化),使每维特征具有相同的重要性:
这里写图片描述

在数据集‘abalone’上运行，共有8个特征，下图反映了，每个特征在不同的lambda下回归系数变化情况，最左边可以得到所有系数的原始值（与线性回归一致），在右边，系数全部缩减为0.
这里写图片描述

另外一种缩减法：前向逐步回归，它属于一种贪新算法：每一步都尽量减小误差，一开始，所有权重都设为1，然后每一步所做的决策是对某个权重增加或减少一个很小的值。
伪代码：：
这里写图片描述

交叉验证
基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。可参考http://blog.csdn.net/chl033/article/details/4671750。

本篇代码（交叉验证测试岭回归）：
链接：http://pan.baidu.com/s/1eSfwXYq 密码：xnei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。