from operator import add
from pyspark import SparkContext, SparkConf
from pyspark.streaming import StreamingContext
conf = SparkConf()
conf.setAppName('TestDStream')
conf.setMaster('local[2]')
sc = SparkContext(conf = conf)
ssc = StreamingContext(sc, 10)
lines = ssc.textFileStream('web.log')
words = lines.flatMap(lambda line: line.split(' '))
wordCounts = words.map(lambda x : (x,1)).reduceByKey(add)
wordCounts.pprint()
ssc.start()
ssc.awaitTermination()
3243玩rwe
最新推荐文章于 2024-10-02 18:27:39 发布
该代码演示了使用PySpark进行流处理的基本步骤,创建了一个SparkContext,然后构建了StreamingContext,设置每10秒处理一批数据。从web.log文件读取数据流,通过flatMap切分行,map计算词频,然后用reduceByKey合并相同单词的计数。最后打印结果并启动流处理。
摘要由CSDN通过智能技术生成