PySpark Structured Streaming实时消费kafka数据写入MongoDB

最新推荐文章于 2024-02-12 18:18:54 发布

别NUll了

最新推荐文章于 2024-02-12 18:18:54 发布

阅读量615

点赞数

分类专栏：大数据文章标签： kafka mongodb spark

本文链接：https://blog.csdn.net/miiimimimi/article/details/119954942

版权

该博客介绍了如何利用PySpark的Structured Streaming功能从Kafka实时消费数据，并将这些数据写入MongoDB。内容涉及KafkaProducer的数据格式、数据解析及其对应的schema，以及具体的Python实现代码。

摘要由CSDN通过智能技术生成

KafkaProducer生产数据格式

向kafka发送数据的格式

{"u_id":"11629939865","timestamp":1622955136,"channel_id":"","detail":{"order_id":"6b3a5eb82a1a","goods_id":1004,"goods_name":"coin","amount":819}}

解析数据所对应的 schema

schema = T.StructType() \
        .add("u_id", T.StringType()) \
        .add("timestamp", T.IntegerType()) \
        .add("channel_id", T.StringType()) \
        .add("detail", T.StructType()
             .add("order_id", T.StringType()) \
             .add("goods_id", T.IntegerType()) \