用spark ml pipeline尝试kaggle比赛

最新推荐文章于 2024-07-30 17:41:43 发布

小煤矿屁

最新推荐文章于 2024-07-30 17:41:43 发布

阅读量3.5k

点赞数

本文链接：https://blog.csdn.net/u014252563/article/details/53360119

版权

本文介绍了如何使用Spark ML Pipeline构建机器学习工作流，以参与Kaggle比赛为例，详细阐述了从数据读取、划分训练集与测试集，到数据预处理、特征选取，再到模型训练与验证的全过程。通过Pipeline，可以清晰地组织和管理机器学习任务的各个阶段，简化复杂工作流。

摘要由CSDN通过智能技术生成

一、关于spark ml pipeline与机器学习

一个典型的机器学习构建包含若干个过程
1、源数据ETL
2、数据预处理
3、特征选取
4、模型训练与验证
以上四个步骤可以抽象为一个包括多个步骤的流水线式工作，从数据收集开始至输出我们需要的最终结果。因此，对以上多个步骤、进行抽象建模，简化为流水线式工作流程则存在着可行性，对利用spark进行机器学习的用户来说，流水线式机器学习比单个步骤独立建模更加高效、易用。
受 scikit-learn 项目的启发，并且总结了MLlib在处理复杂机器学习问题的弊端(主要为工作繁杂，流程不清晰)，旨在向用户提供基于DataFrame 之上的更加高层次的 API 库，以更加方便的构建复杂的机器学习工作流式应用。一个pipeline 在结构上会包含一个或多个Stage，每一个 Stage 都会完成一个任务，如数据集处理转化，模型训练，参数设置或数据预测等，这样的Stage 在 ML 里按照处理问题类型的不同都有相应的定义和实现。两个主要的stage为Transformer和Estimator。Transformer主要是用来操作一个DataFrame 数据并生成另外一个DataFrame 数据，比如svm模型、一个特征提取工具，都可以抽象为一个Transformer。Estimator 则主要是用来做模型拟合用的，用来生成一个Transformer。可能这样说比较难以理解，下面就以一个完整的机器学习案例来说明spark ml pipeline是怎么构建机器学习工作流的。

二、使用spark ml pipeline构建机器学习工作流

在此以Kaggle数据竞赛Display Advertising Challenge的数据集(该数据集为利用用户特征进行广告点击预测)开始，利用spark ml pipeline构建一个完整的机器学习工作流程。
Display Advertising Challenge的这份数据本身就不多做介绍了，主要包括3部分，numerical型特征集、Categorical类型特征集、类标签。

首先，读入样本集，并将样本集划分为训练集与测试集：

 //使用file标记文件路径，允许spark读取本地文件
        String fileReadPath = "file:\\D:\\dac_sample\\dac_sample.txt";
        //使用textFile读入数据
        SparkContext sc = Contexts.sparkContext;
        RDD<String> file = sc.textFile(fileReadPath,1);
        JavaRDD<String> sparkContent = file.toJavaRDD();
        JavaRDD<Row> sampleRow = sparkContent.map(new Function<String, Row>() {
            public Row call(String string) {
                String tempStr = string.replace("\t",",");
                String[] features = tempStr.split(",");
                int intLable= Integer.parseInt(features[0]);
                String intFeature1  = features[1];
                String intFeature2  = features[2];                String CatFeature1 = features[14];
                String CatFeature2 = features[15];
                return RowFactory.create(intLable, intFeature1, intFeature2, CatFeature1, CatFeature2);
            }
        });


        double[] weights = {
  0.8, 0.2};
        Long seed =