spark学习
no_no_no_
这个作者很懒,什么都没留下…
展开
-
spark环境下实现 CountOnce(NumOnce)
(还在学习spark的初级阶段,将书上scala实现的例子用java写出来) 已知一个数组,数组中只有一个数据是出现一次的,其他数据是出现两次的,将出现一次的数据找出。 其中要处理的数字都放在一个文件里面,以空格分隔。import java.util.ArrayList; import java.util.Arrays; import java.util.Iterator;import org.原创 2015-12-09 10:16:45 · 692 阅读 · 0 评论 -
spark 倾斜连接 java实现
本文旨在描述一种思想,并不具有实际意义。 本文将电影评分表ratings与电影基本信息表movies连接起来。 其中ratings表中包含四列(0-3),第1,2列是电影id与评分。movies包含3列(0-2),第0,1列为电影id和电影名。首先对ratings表进行抽样,对抽样数据进行操作取出其中id值倾斜最严重的一列的id值,根据此id将ratings表分为两个RDD:一个为只含有倾斜id原创 2015-12-09 15:56:22 · 324 阅读 · 0 评论