spark读取文件转换为矩阵

 

假设文件中数据的保存格式为:每行为一个样本数据,并由‘,’分隔。如:a.txt

 1,2,3,4,5,6
 9,3,4,5,7,7
 5,2,5,2,7,8
  • 第一步:读取数据并切分,将每行数据从String转换成Array;此时,data的数据类型为RDD[Array[T]] 
 data = sc.textFile("a.txt").map(_.split("\\s+")
  • 第二步:将data转换成二维数组Array[Array[T]],并读取行数和列数
val Array_data = data.collect()
val rows = Array_data.length
val cols = Array_data(0).length
  • 第三步:将其平铺成一维数组

第四步:从一维数组创建Breeze矩阵

import breeze.linalg._
val mat = new DenseMatrix(cols,rows,flattenArray).t
  • 由于平铺成一维数组与创建二维矩阵的方式(按行或按列)正好相反,因此在创建二维矩阵时需要交换行数和列数,并在最后把矩阵转置即可。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值