官方说明:https://spark.apache.org/docs/latest/ml-guide.html
一、Spark ML
1、定义
Spark机器学习
2、针对的对象:DataFrame
(1)ml主要操作的是DataFrame。
(2)DataFrame和RDD什么关系?DataFrame是Dataset的子集,也就是Dataset[Row]。
(3)DataSet是对RDD的封装,对SQL之类的操作做了很多优化。
二、Spark MlLib
1、定义:
MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习具有可扩展性和容易性。在高水平上,它提供了以下工具:
ML算法:常用的学习算法,如分类,回归,聚类和协同过滤
特征:特征提取,变换,维数降低和选择
管道:构建,评估和调整ML管道的工具
持