spark streaming 流程

最新推荐文章于 2024-08-03 08:30:36 发布

不要回头看

最新推荐文章于 2024-08-03 08:30:36 发布

阅读量678

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aa1358075776/article/details/82468827

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.读取kafka，先用redirect方式读取到数据，再取出变量DStream读取到offset，再用读取成rdd的方式读取kafka（适合批量处理，并且spark的该方法需要offset），此处需要两次读取kafka相同的数据，暂时没找到更合适的方案

原因是redirect读取到的DStream暂时没有找到很好的方式处理

2.kafka记录有且只处理一次高可用的实现：kafka commit手动提交方式保证每条记录最少处理一次，zookeeper保存执行出现异常的offset 保证执行失败的记录不遗失

3.实时统计要求描述：想实现秒级统计，及数据展示

现在的思路，kafka实时读取数据，spark streaming 秒级处理kafka数据，按照业务逻辑分组统计，并且保存到hdfs

后端服务接口读取hdfs返回数据到。

难点：spark自带的有状态统计（即可以统计所有批次的数据）依赖它自己提供的checkpoint，checkpoint的原理是保存spark streaming的执行流程图及存储数据，可以保证失败重启数据不丢失，但是代码不能改动，代码改动后checkpoint不会生效。

解决思路：借助hdfs保存上次的统计结果，在代码中实现将本批次的统计结果和保存在hdfs数据再次汇总，重新保存到hdfs中

缺点：多次读取hdfs，读取磁盘效率低。保存操作是在主节点执行，没有利用rdd分布式的特点，感觉不像做数据清洗。spark对读取hdfs没有提供很好的支持

不要回头看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark streaming 流程

1.读取kafka，先用redirect方式读取到数据，再取出变量DStream读取到offset，再用读取成rdd的方式读取kafka（适合批量处理，并且spark的该方法需要offset），此处需要两次读取kafka相同的数据，暂时没找到更合适的方案原因是redirect读取到的DStream暂时没有找到很好的方式处理2.kafka记录有且只处理一次高可用的实现：kafka commi...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。