python spark streaming单机测试，streaming源为本地，统计word count

最新推荐文章于 2024-05-10 22:51:01 发布

chinasiyu

最新推荐文章于 2024-05-10 22:51:01 发布

阅读量624

点赞数

分类专栏：大数据相关

本文链接：https://blog.csdn.net/chinasiyu/article/details/85694439

版权

网上有很多pyspark streaming的测试代码，不过大多都是需要结合kafka做消息来源由于懒得搭kafka，所以想本地生成随机数据作为streaming源，测试spark streaming google查了一些文章，其实spark github中就有类似代码，只不过文件名叫 hdfs_wordcount.py，是针对hdfs的examplehttps://github....

摘要由CSDN通过智能技术生成

网上有很多pyspark streaming的测试代码，不过大多都是需要结合kafka做消息来源

由于懒得搭kafka，所以想本地生成随机数据作为streaming源，测试spark streaming

google查了一些文章，其实spark github中就有类似代码，只不过文件名叫 hdfs_wordcount.py，是针对hdfs的example

https://github.com/apache/spark/blob/master/examples/src/main/python/streaming/hdfs_wordcount.py

参考这个代码来自己测试

环境：

hostip：192.168.1.20

spark standalone

代码：

"""

Filename: test_spark_streaming.py

Author: Si Yu

Date: 01/03/2019

"""

from __future__ import print_function



import sys



from pyspark import SparkContext

from pyspark.streaming import StreamingContext



if __name__ == "__main__":

    LOCALDIR = "/tmp/testfiles"

最低0.47元/天解锁文章

chinasiyu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python spark streaming单机测试，streaming源为本地，统计word count

网上有很多pyspark streaming的测试代码，不过大多都是需要结合kafka做消息来源由于懒得搭kafka，所以想本地生成随机数据作为streaming源，测试spark streaming google查了一些文章，其实spark github中就有类似代码，只不过文件名叫 hdfs_wordcount.py，是针对hdfs的examplehttps://github....
复制链接

扫一扫