一、Spark MLlib简介
MLlib(Machine Learnig lib) 是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器
MLlib支持本地的密集向量和稀疏向量,并且支持标量向量(LabledPoint )。
MLlib同时支持本地矩阵和分布式矩阵,支持的分布式矩阵分为RowMatrix、IndexedRowMatrix、CoordinateMatrix等。
SparkMLlib有Spark ML 和Spark MLlib,其中MLlib是基于RDD的API已处于维护模式,真正可用的基于DataFrame的API的ML库