spark向量

1、本地向量
MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):

复制代码

1 import org.apache.spark.mllib.linalg.{Vector, Vectors}  
2   
3 //创建一个稠密向量  
4 val dv : Vector = Vector.dense(1.0,0.0,3.0);  
5 //创建一个稀疏向量(第一种方式)  
6 val sv1: Vector = Vector.sparse(3, Array(0,2), Array(1.0,3.0));  
7 //创建一个稀疏向量(第二种方式)  
8 val sv2 : Vector = Vector.sparse(3, Seq((0,1.0),(2,3.0))) 

复制代码

对于稠密向量:很直观,你要创建什么,就加入什么,其函数声明为Vector.dense(values : Array[Double])
对于稀疏向量,当采用第一种方式时,3表示此向量的长度,第一个Array(0,2)表示的索引,第二个Array(1.0, 3.0)与前面的Array(0,2)是相互对应的,表示第0个位置的值为1.0,第2个位置的值为3
对于稀疏向量,当采用第二种方式时,3表示此向量的长度,后面的比较直观,Seq里面每一对都是(索引,值)的形式。

tips:由于scala中会默认包含scal.collection.immutalbe.Vector,所以当使用MLlib中的Vector时,需要显式的指明import路径

2、向量标签
向量标签和向量是一起的,简单来说,可以理解为一个向量对应的一个特殊值,这个值的具体内容可以由用户指定,比如你开发了一个算法A,这个算法对每个向量处理之后会得出一个特殊的标记值p,你就可以把p作为向量标签。同样的,更为直观的话,你可以把向量标签作为行索引,从而用多个本地向量构成一个矩阵(当然,MLlib中已经实现了多种矩阵)
其使用代码为:

1 import org.apache.spark.mllib.linag.Vectors  
2 import org.apache.spark.mllib.regression.LabeledPoint  
3   
4 val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0)) 

对于pos变量,第一个参数1.0的具体含义只有你自己知道咯,可以使行索引,可以使特殊值神马的
从文件中直接读入一个LabeledPoint
MLlib提供了一种快捷的方法,可以让用户直接从文件中读取LabeledPoint格式的数据。规定其输入文件的格式为:

label index1:value1 index2:value2..... 

然后通过一下方式直接读入即可

val test : RDD[LabeledPoint] = MLUtils.loadLibSVMFile(sc, "path")

 

3、本地矩阵
既然是算数运算包,肯定少不了矩阵包,先上代码:

1     import org.apache.spark.mllib.linalg.{Matrix, Matrices}  
3     val dm : Matrix = Matrices.dense(3,2, Array(1.0,3.0,5.0,2.0,4.0,6.0))  

 

上面的代码段创建了一个稠密矩阵:

1.02.0
3.04.0
5.06.0

很明显,创建的时候是将原来的矩阵按照列变成一个一维矩阵之后再初始化的。 tips:注意,我们创建的是稠密矩阵,不幸的事,MLlib中并没有提供稀疏矩阵的实现,官方说在后续版本中会提供

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值