spark机器学习库目前有两个包:spark.ml,spark.mlib
spark.ml的核心功能
- 机器学习算法
- 特征化方法
- 管道方法
- 持久化方法
- 实用功能
获取数据的三种途径:
公开数据、爬取的数据、企业的数据
数据预处理
- 处理缺失值
- 处理不一致的值
- 处理离群值
- 处理敏感数据
- 去除重复值
ML库三个主要的抽象类
转换器、预测器、管道
转换器:转换器可以将一个DataFrame转换为另一个DataFrame
预测器:一个预测是一个算法,预测器是学习算法的抽象,被用来训练数据。
管道:管道包含一系列的阶段,每个阶段是一个转换器或一个预测器。
补充:
使用ML库构建机器学习过程
(1)引入需要的包并构建训练数据
(2)定义管道的各个管道阶段Pipeline,包含转换器和预测器
(3)有序组织PipelineStages,并创建一个Pipeline
(4)构建测试数据
(5)用训练好的PipelineModel的transform方法,让测试数据按顺序通过拟合的管道,生成预测值