DStream输出操作

qrh_yogurt

已于 2025-04-23 15:45:00 修改

阅读量530

点赞数 20

文章标签：大数据

于 2025-04-23 15:12:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_87241283/article/details/147455203

版权

DStream输出操作

1.

2.以saveAsTextFiles算子为例，将词频统计结果保存到文本文件中

首先创建streaming文件（mkdir streaming）

3.将以下代码输入并保存：

from pyspark import SparkContext

from pyspark.streaming import StreamingContext

# 初始化SparkContext和StreamingContext

sc = SparkContext('local[2]', 'NetworkWordCountSave')

sc.setLogLevel("WARN")

ssc = StreamingContext(sc, 2) # 批处理间隔2秒

# 从socket数据流创建DStream，并进行词频统计

linesRdd = ssc.socketTextStream('localhost', 9999) \

.filter(lambda x: x.strip() != "") # 添加非空检查

wordCounts = linesRdd \

.flatMap(lambda line: line.split(" ")) \

.filter(lambda word: word != "") \

.map(lambda word: (word, 1)) \

.reduceByKey(lambda a, b: a + b)

wordCounts.pprint()

# 词频统计结果保存到文件系统

wordCounts.saveAsTextFiles("file:///home/spark/streaming/output")

# 启动流计算

ssc.start()

ssc.awaitTermination()

4.保存以上代码并退出编辑器，确保nc服务端在监听9999端口，然后在Linux终端窗体中通过spark-submit命令将NetworkWordCountSave.py程序提交到Spark运行，然后在nc服务端输入文字内容（打开两个终端窗口，在上面窗口中输入）

结果如图所示

5.Ctrl+C退出进程（对下面的窗口）

6.查看主目录中的streaming文件夹，里面出现了很多以output-开关的子目录，其中保存的就是不同批次时间点的数据文件

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。