sklearn中pipeline的实现,及GridSearchCV寻找最优参数

最新推荐文章于 2022-07-10 11:43:52 发布

隐者之王

最新推荐文章于 2022-07-10 11:43:52 发布

阅读量1.7k

点赞数 3

分类专栏：机器学习 pipiline GridSearchCV

本文链接：https://blog.csdn.net/qq_34211618/article/details/103685975

版权

本文介绍了如何在sklearn中利用Pipeline构建机器学习流程，包括特征提取、预处理和模型选择，并结合GridSearchCV进行参数调优。示例中展示了线性回归、岭回归、Lasso回归和弹性网络回归的使用，强调了Pipeline带来的便利性和参数设置方法，特别是通过GridSearchCV进行交叉验证以找到最佳参数。

摘要由CSDN通过智能技术生成

Pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处：

直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。
可以结合grid search对参数进行选择。
如下所示，在models中放置了线性回归，岭回归，Lasso回归，以及弹性网络回归四个模型。需要注意的是后面三个后置的cv表示其附带有交叉验证过程，参数的变化范围是alphas的值。弹性网络额外包含一个l1_ratio为L1正则项的权重，l2正则项的权重为1-l1_ratio.
一个pipeline中一般包含标准化、多项式拓展、以及回归算法几个部分。

models = [
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', LinearRegression(fit_intercept=False))
        ]),
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            # alpha给定的是Ridge算法中，L2正则项的权重值，也就是ppt中的兰姆达
            # alphas是给定CV交叉验证过程中，Ridge算法的alpha参数值的取值的范围
            ('Linear', RidgeCV(alphas=np.logspace(-3,2,50), fit_intercept=False))
        ]),
    Pipeline([
            ('Poly', PolynomialFeatures(inc

最低0.47元/天解锁文章

隐者之王

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
sklearn中pipeline的实现,及GridSearchCV寻找最优参数

Pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处：直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。可以结合grid search对参数进行选择。...
复制链接

扫一扫