python lasso做交叉验证_Lasso 模型选择：交叉验证 / AIC / BIC

最新推荐文章于 2024-06-19 19:48:07 发布

weixin_39582656

最新推荐文章于 2024-06-19 19:48:07 发布

阅读量2.9k

点赞数 1

文章标签： python lasso做交叉验证

本文介绍了如何使用Python中的Lasso模型，通过交叉验证、AIC和BIC信息准则来选择最佳的正则化参数alpha。示例展示了LassoLarsIC、LassoCV和LassoLarsCV的使用，讨论了它们在不同场景下的效率和数值误差特点。

摘要由CSDN通过智能技术生成

Lasso模型选择:交叉验证 / AIC / BIC

本示例利用Akaike信息判据(AIC)、Bayes信息判据(BIC)和交叉验证，来筛选Lasso回归的正则化项参数alpha的最优值。

通过LassoLarsIC得到的结果，是基于AIC/BIC判据的。

这种基于信息判据(AIC/BIC)的模型选择非常快，但它依赖于对自由度的正确估计。该方式的假设模型必需是正确, 而且是对大样本(渐近结果)进行推导，即，数据实际上是由该模型生成的。当问题的背景条件很差时(特征数大于样本数)，该模型选择方式会崩溃。

对于交叉验证，我们使用20-fold的2种算法来计算Lasso路径:LassoCV类实现的坐标下降和LassoLarsCV类实现的最小角度回归(Lars)。这两种算法给出的结果大致相同,但它们在执行速度和数值误差来源方面有所不同。

Lars仅为路径中的每个拐点计算路径解决方案。因此，当只有很少的弯折时，也就是很少的特征或样本时，它是非常有效的。此外，它能够计算完整的路径，而不需要设置任何元参数。与之相反，坐标下降算法计算预先指定的网格上的路径点(本示例中我们使用缺省值)。因此，如果网格点的数量小于路径中的拐点的数量，则效率更高。如果特征数量非常大，并且有足够的样本来选择大量特征，那么这种策略就非常有趣。在数值误差方面，Lars会因变量间的高相关度而积累更多的误差，而坐标下降算法只会采样网格上路径。

注意观察alpha的最优值是如何随着每个fold而变化。这是为什么当估交叉验证选择参数的方法的性能时，需要使用嵌套交叉验证的原因:这种参数的选择对于不可见数据可能不是最优的。

import time

import numpy as np

import matplotlib

最低0.47元/天解锁文章

weixin_39582656

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。