python订阅kafka_Spark+Kafka+WebSocket+eCharts实时分析-完全记录(3)

该博客记录了使用Spark处理Kafka消息的流程,包括Spark接收Kafka数据,进行实时分析,并通过WebSocket将结果展示。内容涉及Spark应用的提交及运行,以及遇到的问题和解决方案。
摘要由CSDN通过智能技术生成

本系列内容:

  1. Kafka环境搭建与测试
  2. Python生产者/消费者测试
  3. Spark接收Kafka消息处理,然后回传到Kafka
  4. Flask引入消费者
  5. WebSocket实时显示

版本:

spark-2.4.3-bin-hadoop2.7.tgz

kafka_2.11-2.1.0.tgz

------------------第3小节:Spark接收Kafka消息处理,然后回传到Kafka--------------------

import sys

from pyspark.sql.types import IntegerType

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode, concat, array_join, concat_ws
from pyspark.sql.functions import split
from pyspark.sql.functions import window

if __name__ == "__main__":
    # broker地址
    bootstrapServers = "192.168.147.128:9092"
    # subscribe:订阅
    subscribeType = "subscribe"
    # 主题
    topics = "bigdata"
    # 窗口大小:30秒
    windowSize = 30
    # 滑动窗口大小:15秒
    slideSize = 15
    windowDuration = '{} seconds'.format(windowSize)
    slideDuration = '{} seconds'.format(slideSize)

    spark = SparkSession.builder.appName("KafkaWordCount").getOrCreate()

    # 读取流数据,并生成dataframe
    # spark获取到的流数据,将放到这个dataframe中的value列
    # dataframe包含:key、value、topic、partition、offset、timestamp、timestampType
    # 这些列成为dataframe元素数据
    # value:是二进制的字节数组,在使用时需要转为字符串
    lines = spark
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值