python订阅kafka_Spark+Kafka+WebSocket+eCharts实时分析-完全记录（3）

最新推荐文章于 2023-05-28 19:33:50 发布

霓虹刀

最新推荐文章于 2023-05-28 19:33:50 发布

阅读量310

点赞数 1

文章标签： python订阅kafka

本文链接：https://blog.csdn.net/weixin_36249804/article/details/112294461

版权

该博客记录了使用Spark处理Kafka消息的流程，包括Spark接收Kafka数据，进行实时分析，并通过WebSocket将结果展示。内容涉及Spark应用的提交及运行，以及遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

本系列内容：

Kafka环境搭建与测试
Python生产者/消费者测试
Spark接收Kafka消息处理，然后回传到Kafka
Flask引入消费者
WebSocket实时显示

版本：

spark-2.4.3-bin-hadoop2.7.tgz

kafka_2.11-2.1.0.tgz

------------------第3小节：Spark接收Kafka消息处理，然后回传到Kafka--------------------

import sys

from pyspark.sql.types import IntegerType

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode, concat, array_join, concat_ws
from pyspark.sql.functions import split
from pyspark.sql.functions import window

if __name__ == "__main__":
    # broker地址
    bootstrapServers = "192.168.147.128:9092"
    # subscribe：订阅
    subscribeType = "subscribe"
    # 主题
    topics = "bigdata"
    # 窗口大小：30秒
    windowSize = 30
    # 滑动窗口大小：15秒
    slideSize = 15
    windowDuration = '{} seconds'.format(windowSize)
    slideDuration = '{} seconds'.format(slideSize)

    spark = SparkSession.builder.appName("KafkaWordCount").getOrCreate()

    # 读取流数据，并生成dataframe
    # spark获取到的流数据，将放到这个dataframe中的value列
    # dataframe包含：key、value、topic、partition、offset、timestamp、timestampType
    # 这些列成为dataframe元素数据
    # value：是二进制的字节数组，在使用时需要转为字符串
    lines = spark

最低0.47元/天解锁文章

霓虹刀

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python订阅kafka_Spark+Kafka+WebSocket+eCharts实时分析-完全记录（3）

本系列内容：Kafka环境搭建与测试Python生产者/消费者测试Spark接收Kafka消息处理，然后回传到KafkaFlask引入消费者WebSocket实时显示版本：spark-2.4.3-bin-hadoop2.7.tgzkafka_2.11-2.1.0.tgz------------------第3小节：Spark接收Kafka消息处理，然后回传到Kafka---------------...
复制链接

扫一扫