spark scala
lirika_777
电脑版发挥稳定户外活动五大湖文化等我回去丢和我ID不请我IDUI我去打吧
展开
-
Spark RDD学习: aggregate函数
Spark 文档中对 aggregate的函数定义如下:def aggregate[U](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U)(implicit arg0: ClassTag[U]): U注释:Aggregate the elements of each partition, and then ...转载 2018-08-13 10:36:22 · 207 阅读 · 1 评论 -
Breeze库API总结(Spark线性代数库)
导入import breeze.linalg._import breeze.numerics._Breeze创建函数: 操作名称 Breeze函数 对应Numpy函数 全0矩阵 DenseMatrix.zeros[Double](2,3) zeros((2,3)) 全0向量 DenseVector.zeros[D...转载 2019-05-11 10:00:59 · 760 阅读 · 0 评论 -
spark向量矩阵的使用(scala)
向量和矩阵都是做机器学习的基础,下面来介绍下使用spark的底层的向量和矩阵是基于Breeze的,下面主要介绍下Breeze的使用,下面直接给代码,代码上有注释需要引入的包 import breeze.linalg._ import breeze.numerics._ import org.apache.log4j.{Level, Logger} ...转载 2019-05-11 09:59:42 · 1086 阅读 · 0 评论 -
spark读取文件转换为矩阵
假设文件中数据的保存格式为:每行为一个样本数据,并由‘,’分隔。如:a.txt 1,2,3,4,5,6 9,3,4,5,7,7 5,2,5,2,7,8第一步:读取数据并切分,将每行数据从String转换成Array;此时,data的数据类型为RDD[Array[T]] data = sc.textFile("a.txt").map(_.split("\\s+")第二步...原创 2019-05-11 09:57:07 · 1598 阅读 · 0 评论 -
sc.textFiles() 与 sc.wholeTextFiles() 的区别及使用
众所周知,sc.textFiles(path)能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式:>>> textFile = sc.textFile(path)>>> textFile.collect()'Hello world!' 文件的每一行 相当于 列表 的一个元素,因此可以在每个par...原创 2019-05-19 21:44:36 · 3475 阅读 · 0 评论 -
关于SPARK里RDD,多行数据合并一行以及一行数据映射多行
1. 首先对于将多行缩减一行的需求我们可以通过 flatMapValues字段实现该功能。flatMapValues:同基本转换操作中的flatMap,只不过flatMapValues是针对[K,V]中的V值进行flatMap操作。样例如下val sqlContext = SparkSession.builder().master("local").getOrCreate...原创 2019-04-11 20:56:23 · 4863 阅读 · 1 评论 -
Scala 文本文件本地写入
友情提示:需要导入java的包 不然会报错import java.io.PrintWriterimport java.io.Fileimport scala.io.Sourceimport java.io.PrintWriterimport java.io.Fileimport scala.io.Sourceobject FileOps { def main(...原创 2019-04-06 19:45:39 · 2291 阅读 · 0 评论 -
Spark的Ml pipeline理解
ML pipeline提供了一组统一的高级API,它们构建在 DataFrame之上,可帮助用户创建和调整实用的机器学习pipeline。一 重要概念1.1 管道中的主要概念MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。DataFrame:这个ML API使用S...转载 2019-02-22 15:54:44 · 3069 阅读 · 1 评论 -
spark pipeline学习
概念MLlib提供标准的机器学习算法API,能够方便的将不同的算法组合成一个独立的管道,或者叫工作流。 • DataFrame:ML API使用Sark SQL中的DataFrme作为机器学习数据集,可容纳各种类型的数据,如DataFrame可能是存储文本的不同列,特征向量,真正的标签或者预测。 • 转换器:Transformer是一种算法,可以将一个DataFrame转换成另...转载 2019-02-22 15:51:20 · 213 阅读 · 0 评论 -
Spark之pipeline机制
1、pipeline的产生 从一个现象说起,有一家咖啡吧生意特别好,每天来的客人络绎不绝,客人A来到柜台,客人B紧随其后,客人C排在客人B后面,客人D排在客人C后面,客人E排在客人D后面,一直排到店面门外。老板和三个员工首先为客人A准备食物:员工甲拿了一个干净的盘子,然后员工乙在盘子里装上薯条,员工丙再在盘子里放上豌豆,老板最后配上一杯饮料,完成对客人A的服务,送走客人A,下一位客...转载 2019-02-22 15:49:42 · 211 阅读 · 0 评论 -
spark ml 归一化操作完整版
话不多说,上代码 val docTopicData = sc.textFile("src\\main\\resources\\model\\111.txt", 1) .map(s => Vectors.dense(s.split(' ').map(_.toDouble))) import spark.implicits._ val docTopicDF = do...原创 2019-05-11 21:22:05 · 550 阅读 · 0 评论