【机器学习课程-华盛顿大学】：2 回归 2.4 岭回归Ridge Regression

最新推荐文章于 2024-04-18 15:38:53 发布

有石为玉

最新推荐文章于 2024-04-18 15:38:53 发布

阅读量602

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41770169/article/details/80624146

版权

机器学习专栏收录该内容

63 篇文章 5 订阅

订阅专栏

低复杂度模型有：高偏差，低方差；高复杂度模型有：低偏差，高方差。

为了在偏差和方差之间取得平衡，我们来看一种解决方法：岭回归

Ridge Regression岭回归：一种当使用多特征时的控制过拟合的方法

一、引入Ridge Regression的背景

1、多项式回归的过拟合：

高阶多项式：

过拟合的一个典型症状：w参数值很大

2、线性回归模型的过拟合更常见：

（1）特征维度：特征维度对拟合的影响，样本需要包含多种特征组合下的代表

（2）样本数：样本数越少，越容易发生过拟合

3、理想的全代价公式：

模型能够很好的拟合数据；模型参数幅度较小；

在两者之间找到均衡。

（1）第一项：对数据的拟合程度

（2）第二项：模型参数幅度

二、Ridge Regression

1、Ridge Regression公式

2、bias和variance的均衡：lamda控制模型复杂度

当lamda = 0时，代价函数退化为RSS，为w的高阶多项式，很有可能出现过拟合：低bias，高variance

当lamda = 无穷时，此时只有w=0才能有cost，此时模型：高bias，低variance

3、给定lamda时，模型的cost计算

（1）重新写cost定义公式

RSS

w^2:

将2个合并在一起，就是Ridge Regression的cost函数：

（2）计算梯度

（3）解法一：梯度=0

加上lamda后，使得w更加归一化

（4）解法2：梯度下降

三、原回归模型和岭回归模型对比

原模型：

岭回归：

四、k次交叉验证

大致思想：将数据分为K个子样本，每次取一个子样本用来，取余下的K-1个子样本用来训练。训练后，验证，计算出验证错误率。重复K次，将K次错误率平均，得到一个总体的错误率。可以通过整体错误率，估计当前整体数据用于建模的错误率。

一般有5次交叉验证、10次交叉验证。

取使得上述平均误差CV(lamda)最小时的lamda最为最终的lamda。

五、测试

过拟合问题

对于小数据集来说，k交叉验证比普通的设定1个验证集的误差小。

计算量问题

时间消耗问题

全遍历一次数据集得到1个lambda，全遍历一次数据集需要计算N次LOO，时间为：N*Cost(N-1, D)

得到L个lambda，时间为：LN*Cost(N-1, D)

L=100, N=1000000, Cost(N-1, D)=1s，带入7的式子，因此时间消耗为：100000000s 约等于 3year

全遍历一次数据集得到1个lambda，全遍历一次数据集需要计算k次，1次计算为1s，全遍历一次数据集时间为：ks

得到100个lambda，时间为：100ks = 3600s，则：k=36

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【机器学习课程-华盛顿大学】：2 回归 2.4 岭回归Ridge Regression

低复杂度模型有：高偏差，低方差；高复杂度模型有：低偏差，高方差。为了在偏差和方差之间取得平衡，我们来看一种解决方法：岭回归Ridge Regression岭回归：一种当使用多特征时的控制过拟合的方法一、引入Ridge Regression的背景1、多项式回归的过拟合：高阶多项式：过拟合的一个典型症状：w参数值很大 2、线性回归模型的过拟合更常见：（1）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。