Spark MLlib的底层组件
-
BLAS/LAPACK层
- LAPACK是用Fortran编写的算法库,顾名思义,Linear Algebra Package是为了解决通用的线性代数问题。算法包BLAS(Basic Linear Algebra Subprograms),其实LAPACK底层使用了BLAS库 Netlib-java
- 对BLAS/LAPACK封装的Java接口层 Breeze
- scala编写的数值处理库,提供向量、矩阵运算等API 库依赖
- MLlib底层使用了依赖Fortran routines的netlib-java。因此,需要在节点预安装gfortran runtime library
MLlib的数据存储
支持本地向量和矩阵存储、分布式的矩阵存储(底层实现一个或多个RDD)
MLlib监督学习中,一个训练样例叫做labeled point
本地
本地向量(Local vector)
数据类型为double,数组序号从0开始的整数类型。本地向量存储在单机中。
MLlib支持两种类型的本地向量
- 稠密向量
- 底层实现:一个double型的数组存储向量每个元素的值
- 稀疏向量
- 底层实现:连个并行的数组,一个数组存储向量的序号,一个存储向量元素值
本地向量的基本类是Vector类,两种实现
* DenseVector
* SparseVector
import org.apache.spark.mllib.linalg.{Vector, Vectors}
// Create a dense vector (1.0, 0.0, 3.0).
val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)
// Create a sparse vector (1.0, 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries.
val sv1: Vector = Vectors.sparse(3, Array(0, 2), Array(