0、简介
sparkMLlib是spark中的一个算法包,主要是进行一些机器学习相关的操作及计算,主要包括以下几个方面:
序号 | 特征 | 特征描述 |
1 | ML算法 | 常见的学习算法,例如分类,回归,聚类和协作过滤 |
2 | 特征化 | 特征提取,变换,降维和选择 |
3 | 管道 | 用于构建,评估和调整ML管道的工具 |
4 | 持久性 | 保存和加载算法,模型和管道 |
5 | 实用程序 | 线性代数,统计信息,数据处理等 |
1、官方API介绍
1.1、官方API之基于RDD
声明:The MLlib RDD-based API is now in maintenance mode.
1.2、官方API之基于DataFrame
声明: DataFrame-based API is primary API
1.3、说明
从Spark 2.0开始,