Spark MLlib之矩阵

Spark MLlib的底层组件

BLAS/LAPACK层
LAPACK是用Fortran编写的算法库,顾名思义,Linear Algebra Package是为了解决通用的线性代数问题。算法包BLAS(Basic Linear Algebra Subprograms),其实LAPACK底层使用了BLAS库
Netlib-java
对BLAS/LAPACK封装的Java接口层
Breeze
scala编写的数值处理库,提供向量、矩阵运算等API
库依赖
MLlib底层使用了依赖Fortran routines的netlib-java。因此,需要在节点预安装gfortran runtime library

MLlib的数据存储

支持本地向量和矩阵存储、分布式的矩阵存储(底层实现一个或多个RDD)

MLlib监督学习中,一个训练样例叫做labeled point

官方文档(1.6,2.0也一样)很详细

本地

本地向量(Local vector)

数据类型为double,数组序号从0开始的整数类型。本地向量存储在单机中。
MLlib支持两种类型的本地向量
- 稠密向量
- 底层实现:一个double型的数组存储向量每个元素的值
- 稀疏向量
- 底层实现:连个并行的数组,一个数组存储向量的序号,一个存储向量元素值

本地向量的基本类是Vector类,两种实现
* DenseVector
* SparseVector

import org.apache.spark.mllib.linalg.{Vector, Vectors}

// Create a dense vector (1.0, 0.0, 3.0).
val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)
// Create a sparse vector (1.0, 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries.
val sv1: Vector = Vectors.sparse(3, Array(0, 2), Array(
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值