pyspark streaming运行流计算

最新推荐文章于 2024-05-10 22:51:01 发布

hyh012356789

最新推荐文章于 2024-05-10 22:51:01 发布

阅读量1.9k

点赞数

本文链接：https://blog.csdn.net/hyh012356789/article/details/89330014

版权

运行代码：

from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.sql.functions import udf, col
from pyspark.sql.types import StringType

if __name__ == "__main__":
spark = SparkSession.builder.master("local[2]").appName("PythonWordCount").getOrCreate()
spark.sparkContext.setLogLevel('INFO')
prop = {"kafka.bootstrap.servers": "10.10.108.101:9092", "subscribe": "tp_test123"}
#time_udfs = udf(getLen, StringType())
data = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "10.10.108.101:9092")\
.option("subscribe", "tp_testabc")\
.load()
tmp = data.selectExpr("CAST(value AS STRING)")#.createOrReplaceTempView("updates")
#abc = spark.sql("select * from updates")
query = tmp.writeStream.format("console").outputMode("append").start()
spark.streams.awaitAnyTermination()

运行脚本：

spark-2.3.3-bin-hadoop2.7/bin/spark-submit --jars pyspark/lib/spark-sql-kafka-0-10_2.11-2.3.3.jar,pyspark/lib/kafka_2.11-0.10.0.1.jar,pyspark/lib/kafka-clients-0.10.2.0.jar pyspark/sparkStream.py

注意事项：使用spark-2.3.3版本spark，否则会报错。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hyh012356789

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark streaming运行流计算

运行代码：from pyspark.sql import SparkSessionfrom pyspark import SparkContextfrom pyspark.sql.functions import udf, colfrom pyspark.sql.types import StringTypeif __name__ == "__main__": spark =...
复制链接

扫一扫