【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

最新推荐文章于 2024-07-04 11:19:43 发布

Spark技术咖

最新推荐文章于 2024-07-04 11:19:43 发布

阅读量2.1w

点赞数 8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovechendongxing/article/details/81748553

版权

本文深入讲解如何使用StructuredStreaming从Kafka读取数据，介绍流式DataFrame的创建、基本操作和窗口操作，并展示如何将结果输出到Kafka。重点探讨基于Watermark的Event-Time聚合操作，以及实时流作业的监控方法。

摘要由CSDN通过智能技术生成

上一篇博客《StructuredStreaming是何方神圣》已经介绍了StructuredStreaming的相关概念，这篇博客我们介绍基于StructuredStreaming进行实时流算子开发，并将结果输出到kafka中。

StructuredStreaming使用的数据类型是DataFrame和Dataset。

从Spark 2.0开始，DataFrame和Dataset可以表示静态（有界数据），以及流式（无界数据）。与静态Dataset/ DataFrame类似，用户可以使用公共入口点SparkSession 从流源创建流DataFrame /Dataset，并对它们应用与静态DataFrame / Dataset相同的操作。如果你不熟悉Dataset / DataFrame，请戳《Dataset常用方法》和《DataFrame常用方法》

接下来，我们以Append输出模式为例，讲解流式DataFrame的创建，基础操作和窗口操作，以及将结果输出到外部存储介质的方法。

1、流式DataFrame创建

以Kafka作为输入源为例。

a、引入两个依赖包

b、创建SparkSession入口，用于与集群资源管理器交互

c、指定kafka的地址和端口号，

最低0.47元/天解锁文章

关注

8
点赞
踩
68

收藏

觉得还不错? 一键收藏
32
评论
【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

上一篇博客《StructuredStreaming是何方神圣》已经介绍了StructuredStreaming的相关概念，这篇博客我们介绍基于StructuredStreaming进行实时流算子开发，并将结果输出到kafka中。 StructuredStreaming使用的数据类型是DataFrame和Dataset。从Spark 2.0开始，DataFra...
复制链接

扫一扫

Spark技术咖 CSDN认证博客专家 CSDN认证企业博客

码龄15年

20: 原创

30万+: 周排名

61万+: 总排名

8万+: 访问

: 等级

773: 积分

155: 粉丝

67: 获赞

49: 评论

437: 收藏

私信

关注

热门文章

最新评论

Spark运行原理【史上最详细】
uniquewdl: 我觉得作者总体分享的还不错，不过有些内容还是需要详细描述一下，包括DAGScheduler是如何创建的，何时创建的，以及SparkContext怎么运行DAGScheduler进行划分DAG操作。最后还是感谢博主文章，真是受益匪浅。
【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序
zz_comeon: 大神好，为什么我这边spark处理完数据写入kafka，我看kafka里面是把一个batch的所有结果当作一条，同时在es里的数据，也只有一条，不过这一条的数据一直在更新。我是滑动窗口，窗口长度是1分钟，滑动步长是1秒，所以我可能希望ES里面有60条数据，每个窗口一条，但是结果是ES里只有一条数据。
【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序
lixia0417mul2: 如果改成update模式就不会了。update模式有重复，但是是都输出的，append模式好像总是在等wartermark
Spark运行原理【史上最详细】
dchdd: 比如 job task的划分。从action算子和宽依赖的角度去看划分，reduceByKey应该是窄依赖？Reduce是宽依赖？
Spark运行原理【史上最详细】
dchdd: sparkContext， DAGSchedule ， TaskSchedule之间的关系是不是还能再说清楚些

最新文章

目录

评论 32

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。