3243玩rwe

最新推荐文章于 2024-10-02 18:27:39 发布

大仙s

最新推荐文章于 2024-10-02 18:27:39 发布

阅读量33

点赞数

文章标签：服务器 linux 运维

本文链接：https://blog.csdn.net/qq1849238919/article/details/131381984

版权

该代码演示了使用PySpark进行流处理的基本步骤，创建了一个SparkContext，然后构建了StreamingContext，设置每10秒处理一批数据。从web.log文件读取数据流，通过flatMap切分行，map计算词频，然后用reduceByKey合并相同单词的计数。最后打印结果并启动流处理。

摘要由CSDN通过智能技术生成

from operator import add
from pyspark import SparkContext, SparkConf
from pyspark.streaming import StreamingContext
conf = SparkConf()
conf.setAppName('TestDStream')
conf.setMaster('local[2]')
sc = SparkContext(conf = conf)
ssc = StreamingContext(sc, 10)
lines = ssc.textFileStream('web.log')
words = lines.flatMap(lambda line: line.split(' '))
wordCounts = words.map(lambda x : (x,1)).reduceByKey(add)
wordCounts.pprint()
ssc.start()
ssc.awaitTermination()