MLlib: Spark机器学习(ML)库, 包含:
ML 算法:分类classification, 回归regression, 聚类clustering, 协同过滤 collaborative filtering
特征化:特征提取,转换,降维度,选择性
管道Pipeline: 用于构造、评价以及调节Pipeline
持久化:保存、加载算法、模型以及管道
工具:线性代数、统计、数据处理等
基于DataFrame的API 作为主要机器学习API
Spark 2.0之后,原在spark.mllib包中的基于RDD的API进入仅维护的阶段,之后会以在spark.ml包中基于DataFrame API为主要的机器学习API。
Dataset是一种分布式数据集合。Dataset作为一种新的接口添加到Spark1.6中。
DataFrame是Dataset管理的一系列内容,可以类似于数据库中管理的表。
在Scala API 中, DataFrame 标记为 Dataset[Row].