安装教程见我其他博客https://blog.csdn.net/qq_25948717/article/details/80758713,
在终端输入pyspark进入spark环境:
test.txt
进入:
读取文本文件:
>>> textFile = sc.textFile("test.txt")
使用flatMap空格分隔单词,并读取每个单词
注意flatMap和map不同,map产生的List是分层的,第一层是文本的每一行,第二层是每行内的单词
flatMap直接将分层去掉,就是把所有单词读取为List。
>>> stringRDD = textFile.flatMap(lambda line:line.split(" "))
通过mapreduce计算每个单词出现的次数
>>>countRDD = stringRDD.map(lambda word:(word,1)).reduceByKey(lambda x,y:x+y)
保存计算结果:
>>>countRDD.saveAsTextFile("output")
查看结果:发现结果分片了