spark-编写Structured Streaming程序的基本步骤-词频统计

 

 

 

 

 structured_streaming.py代码

from pyspark.sql import SparkSession
from pyspark.sql.functions import split
from pyspark.sql.functions import explode
import sys

if __name__=="__main__":
    spark=SparkSession\
        .builder\
        .appName("StructuredNetworkWordCount")\
        .getOrCreate()


    spark.sparkContext.setLogLevel("WARN")

    lines=spark\
        .readStream\
        .format("socket")\
        .option("host",sys.argv[1])\
        .option("port",int(sys.argv[2]))\
        .load()

    words=lines.select(
        explode(
            split(lines.value," ")
        ).alias("word")
    )
    wordCounts=words.groupBy("word").count()

    query=wordCounts\
        .writeStream\
        .outputMode("complete")\
        .format("console")\
        .trigger(processingTime="8 seconds")\
        .start()
    query.awaitTermination()

窗口spark-master

搭建集群~

再开一个窗口,同样是 spark-master窗口

运行命令:spark-submit   xxx.py  spark-master 9006

即:spark-submit    structured_streaming.py  spark-master 9006

 第一个窗口:

 

第二个窗口显示

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值