机器学习 day02(三)

最新推荐文章于 2024-04-18 16:33:29 发布

沉觞流年

最新推荐文章于 2024-04-18 16:33:29 发布

阅读量330

点赞数

分类专栏： # Python 机器学习

本文链接：https://blog.csdn.net/qq_44614026/article/details/94609347

版权

24 篇文章 1 订阅

订阅专栏

如果样本量特别小的时候，容易造成过拟合现象。

在进行回归系数推导的时候我们引入正则化项

如果数据的特征比样本点还多应该怎么办？是否还可以使用线性回归和之前的方法来做预测？

答案是否定的，即不能再使用前面介绍的方法。这是因为输入数据的矩阵X不是满秩矩阵。非满秩矩阵在求逆时会出现问题。

为了解决这个问题，统计学家引入了岭回归（ridge regression)的概念

在这里插入图片描述
缩减方法可以去掉不重要的参数，因此能更好地理解数据。此外，与简单的线性回归相比，缩减法能取得更好的预测效果。

【注意】在岭回归里面，决定回归模型性能的除了数据算法以外，还有一个缩减值lambda*I

岭回归是加了二阶正则项(lambda*I)的最小二乘，主要适用于过拟合严重或各变量之间存在多重共线性的时候，岭回归是有bias的，这里的bias是为了让variance更小。

在这里插入图片描述
归纳总结
1.岭回归可以解决特征数量比样本量多的问题

2.岭回归作为一种缩减算法可以判断哪些特征重要或者不重要，有点类似于降维的效果

3.缩减算法可以看作是对一个模型增加偏差的同时减少方差

岭回归用于处理下面两类问题：

1.数据点少于变量个数

2.变量间存在共线性（最小二乘回归得到的系数不稳定，方差很大）

创建岭回归模型
使用前面过拟合的poly的4次多项式 x_poly4作为特征,y作为标签,进行训练
预测
绘图

查看红色的曲线,和以前的poly4的四次曲线(绿色)进行对比,现在的拟合程度就比以前好得多了,因为使用岭回归模型进行了惩罚,现在的惩罚系数为1000,是从默认为1慢慢修改尝试的,惩罚力度越大,过拟合程度越小
对比蓝色曲线(二次曲线,既没有过拟合,也没有欠拟合)进行对比,可以发现惩罚过后的红色曲线比较接近蓝色曲线的趋势
查看回归系数

惩罚力度越大,回归系数缩减的越厉害,回归系数越趋于简单化,过拟合程度在逐渐降低

关注