函数 | 使用方法 |
---|
sc | new SparkContext(conf) |
textFile | 用于读取文件成RDD格式 |
flapMap | 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”: |
map | map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象; |
split | 切分 |
reduceByKey | 以key的形式传入 |
filter过滤出大于五的
sc.parallelize(List(1,2,3,4,5,6)).filter(_ > 2).collect
————————————————————————————————————————————————
将word.txt的文件计算每个词出现的次数
sc.textFile("./hu.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
Array(
(ma,1),
(zai,1),
("",1),
(gan,1),
(hao,1),
(huxicong,2),
(hi,3),
(shui,1),
(ni,2),
(nishi,1)
)
————————————————————————————————————————————————
将key,value调换位置
sc.textFile("./hu.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).map(x => (x._2,x._1)).collect
Array(
(1,ma), (1,zai), (1,""),
(1,gan), (1,hao), (2,huxicong),
(3,hi), (1,shui), (2,ni),
(1,nishi)
)
——————————————————————————————————————————————
过滤操作 将过滤出value值不为1的shu
sc.textFile("./hu.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).filter(x=>(x._2 != 1)).collect
Array((huxicong,2), (hi,3), (ni,2))