![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
大数据spark
这个作者很懒,什么都没留下…
展开
-
rdd行动操作
1)reduce reduce(func)是对数据集的所有元素执行聚集(func)函数,该函数必须是可交换的。val rdd1 = sc.parallelize(1 to 9, 3)val rdd2 = rdd1.reduce(_ + _)rdd2: Int = 452)collect collect是将数据集中的所有元素以一个array的形式返回。rdd1.collect()res8:原创 2017-05-11 09:37:19 · 535 阅读 · 0 评论 -
rdd常见转换操作
1)mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD,RDD之间的元素是一对一关系val rdd1=sc.parallelize(1 to 9,3)val rdd2=rdd1.map(x=>x*2)rdd2中则存放(2, 4, 6, 8, 10, 12, 14, 16, 18)2)filterFilter是对RDD元素进行过滤,返回一个新的数据集val rdd1=sc.p原创 2017-05-08 09:04:30 · 2531 阅读 · 0 评论 -
scala_三次排序
今天看了下二次排序的算法,虽然还是不懂源码内部是咋处理的,但至少会把二次排序改成三次,甚至更高纬度排序了,先会用,再慢慢研究吧!下面是scala版本的程序。1、先写keyclass thirdOrderKey (val first: Int, val second: Int, val third: Int) extends Ordered[thirdOrderKey] with Serializab原创 2017-05-13 17:57:49 · 485 阅读 · 0 评论 -
RDD创建
1、并行化处理数组val data = Array(1, 2,3, 4, 5, 6, 7, 8, 9)val distData = sc.parallelize(data, 3) //3为要开启的线程数val data=Array(Tuple2("xiaoming",20),Tuple2("xiaoli",23))val distData = sc.parallelize(data, 3原创 2017-05-08 08:54:39 · 293 阅读 · 0 评论