Spark MLlib的简介-CSDN博客

　MLlib 是构建在 Spark 上的分布式机器学习库，充分利用了 Spark 的内存计算和适合迭代型计算的优势，将性能大幅度提升。同时由于 Spark 算子丰富的表现力，让大规模机器学习的算法开发不再复杂。
MLlib 是一些常用的机器学习算法和库在Spark 平台上的实现。MLlib 是 AMPLab 的在研机器学习项目 MLBase 的底层组件。

　 MLBase 是一个机器学习平台，详细见 http://www.cnblogs.com/zlslch/p/5726445.html

　　MLI 是一个接口层，提供很多结构， MLlib 是底层算法实现层，如图1 所示。

　　　　　　　　　　　　　　　　图 1 MLbase

　　MLlib 中包含分类与回归、聚类、协同过滤、数据降维组件以及底层的优化库，如图 2所示。

　　　　　　　　　　　　　　　　　　图 2 MLlib 组件图

　　通过图 2，我们可以对 MLlib 的整体组件和依赖库有一个宏观的把握。

　　底层组件简要介绍：
BLAS/LAPACK 层： LAPACK 是用 Fortran 编写的算法库，顾名思义， LinearAlgebra PACKage，是为了解决通用的线性代数问题的。另外必须要提的算法包是BLAS（Basic Linear Algebra Subprograms），其实 LAPACK 底层是使用了 BLAS 库的。不少计算机厂商都提供了针对不同处理器进行了优化的 BLAS/LAPACK 算法包。
Netlib-java（官网为： https://github.com/fommil/netlib-java/）是一个对底层 BLAS,LAPACK 封装的 Java 接口层。
Breeze（官网为： https://github.com/scalanlp/breeze）是一个 Scala 写的数值处理库，提供向量、矩阵运算等 API。

　库依赖： MLlib 底层使用到了 Scala 书写的线性代数库 Breeze， Breeze 底层依赖netlib-java 库。 netlib-java 底层依赖原生的 Fortran routines。所以，当用户使用时需要在节点上预先安装 gfortran runtime library（下载地址： https://github.com/mikiobraun/jblas/wiki/Missing-Libraries）。由于许可证（license）问题，官方的 MLlib 依赖集中没有引入 netlib-java 原生库的依赖。如果运行时环境没有可用原生库，用户将会看到警告信息。如果程序中需要使用 netlib-java 的库，用户需要在项目中引入 com.github.fommil.netlib:all:1.1.2 的依赖或者参照指南（网址为： https://github.com/fommil/netlib-java/blob/master/README.md#machine-optimised-system-libraries）来建立用户自己的项目。如果用户需要使用 python 接口，则需要 1.4 或者更高版本的 NumPy（注意： MLlib 源码中注释有 Experimental/DeveloperApi 的 API 在未来的发布版本中可能会进行调整和改变，官方会在不同版本发布时提供迁移指南）。

Spark MLlib介绍

　　Spark之所以在机器学习方面具有得天独厚的优势，有以下几点原因：

　　（1）机器学习算法一般都有很多个步骤迭代计算的过程，机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止，迭代时如果使用Hadoop的MapReduce计算框架，每次计算都要读/写磁盘以及任务的启动等工作，这回导致非常大的I/O和CPU消耗。而Spark基于内存的计算模型天生就擅长迭代计算，多个步骤计算直接在内存中完成，只有在必要时才会操作磁盘和网络，所以说Spark正是机器学习的理想的平台。

　　（2）从通信的角度讲，如果使用Hadoop的MapReduce计算框架，JobTracker和TaskTracker之间由于是通过heartbeat的方式来进行的通信和传递数据，会导致非常慢的执行速度，而Spark具有出色而高效的Akka和Netty通信系统，通信效率极高。

　　MLlib(Machine Learnig lib) 是Spark对常用的机器学习算法的实现库，同时包括相关的测试和数据生成器。Spark的设计初衷就是为了支持一些迭代的Job, 这正好符合很多机器学习算法的特点。在Spark官方首页中展示了Logistic Regression算法在Spark和Hadoop中运行的性能比较，如图下图所示。

　　可以看出在Logistic Regression的运算场景下，Spark比Hadoop快了100倍以上！

　　MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤，MLlib在Spark整个生态系统中的位置如图下图所示。

　　MLlib基于RDD，天生就可以与Spark SQL、GraphX、Spark Streaming无缝集成，以RDD为基石，4个子框架可联手构建大数据计算中心！

　　MLlib是MLBase一部分，其中MLBase分为四部分：MLlib、MLI、ML Optimizer和MLRuntime。

ML Optimizer会选择它认为最适合的已经在内部实现好了的机器学习算法和相关参数，来处理用户输入的数据，并返回模型或别的帮助分析的结果；
MLI 是一个进行特征抽取和高级ML编程抽象的算法实现的API或平台；
MLlib是Spark实现一些常见的机器学习算法和实用程序，包括分类、回归、聚类、协同过滤、降维以及底层优化，该算法可以进行可扩充；MLRuntime 基于Spark计算框架，将Spark的分布式计算应用到机器学习领域。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5726346.html，如需转载请自行联系原作者