spark mlib行矩阵(RowMatrix)入门

本文介绍了Apache Spark的MLlib库中RowMatrix的概念,它是一种基于RDD[Vector]的分布式矩阵类型。RowMatrix的行是本地向量,列数受限于整型范围,适合小规模维度的矩阵操作。示例展示了如何创建RowMatrix,获取其行数、列数以及通过computeColumnSummaryStatistics()方法进行统计分析,如最大值、平均值、方差等。
摘要由CSDN通过智能技术生成
  • 行矩阵RowMatrix是最基础的分布式矩阵类型。
  • 每行是一个本地向量,行索引无实际意义(即无法直接使用)。
  • 数据存储在一个由行组成的RDD中,其中每一行都使用一个本地向量来进行存储。
  • 由于行是通过本地向量来实现的,故列数(即行的维度)被限制在普通整型(integer)的范围内。
  • 在实际使用时,由于单机处理本地向量的存储和通信代价,行维度更是需要被控制在一个更小的范围之内。
  • RowMatrix可通过一个RDD[Vector]的实例来创建

例子

import org.apache.spark.mllib.linalg
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.linalg.distributed.RowMatrix
import org.apache.spark.mllib.stat.MultivariateStatisticalSummary
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
object Test {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().master("local").getOrCreate()
    //创建稠密向量
    val dv1: linalg.Vector = Vectors.dense(1.0, 2.0, 3.0)
    val dv2: linalg.Vector = Vectors.dense(2.0, 3.0, 4.0)
    //使用两个本地向量创建一个RDD[Vector]
    val rows: RDD[linalg.Vector] = spark.sparkContext.parallelize(Array(dv1, dv2))
    //通过RDD[Vector]创建一个行矩阵
    val matrix = new RowMatrix(rows)
    //获取矩阵的行数
    println(matrix.numRows())//2
    //获取矩阵的列数
    println(matrix.numCols())//3
    //通过computeColumnSummaryStatistics()方法获取统计摘要
    val summary: MultivariateStatisticalSummary = matrix.computeColumnSummaryStatistics()
    val max: linalg.Vector = summary.max
    //最大向量
    println(max)//[2.0,3.0,4.0]
    //平均向量
    println(summary.mean)//[1.5,2.5,3.5]
    println(summary.count)//2
    //方差向量
    println(summary.variance)//[0.5,0.5,0.5]
  }
}

总结

  • 可以通过Vector构建RowMatrix

参考

Spark入门:MLlib基本数据类型(2)_厦大数据库实验室博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值