pyspark streaming运行流计算

运行代码:

from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.sql.functions import udf, col
from pyspark.sql.types import StringType

if __name__ == "__main__":
    spark = SparkSession.builder.master("local[2]").appName("PythonWordCount").getOrCreate()
    spark.sparkContext.setLogLevel('INFO')
    prop = {"kafka.bootstrap.servers": "10.10.108.101:9092", "subscribe": "tp_test123"}
    #time_udfs = udf(getLen, StringType())
    data = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "10.10.108.101:9092")\
        .option("subscribe", "tp_testabc")\
        .load()
    tmp = data.selectExpr("CAST(value AS STRING)")#.createOrReplaceTempView("updates")
    #abc = spark.sql("select * from updates")
    query = tmp.writeStream.format("console").outputMode("append").start()
    spark.streams.awaitAnyTermination()

运行脚本:

spark-2.3.3-bin-hadoop2.7/bin/spark-submit  --jars pyspark/lib/spark-sql-kafka-0-10_2.11-2.3.3.jar,pyspark/lib/kafka_2.11-0.10.0.1.jar,pyspark/lib/kafka-clients-0.10.2.0.jar pyspark/sparkStream.py   

注意事项:使用spark-2.3.3版本spark,否则会报错。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值