kafka python 性能 spark对比_【python】spark+kafka使用

最新推荐文章于 2024-05-29 09:38:05 发布

仇小佳

最新推荐文章于 2024-05-29 09:38:05 发布

阅读量284

点赞数

文章标签： kafka python 性能 spark对比

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34195649/article/details/113393792

版权

网上用python写spark+kafka的资料好少啊自己记录一点踩到的坑~

上面两个是最重要的资料，大多数问题可以通过仔细研读上面两个文档得到答案

官网上说了，spark和kafka连用有两种方式：接收器形式以及直连形式

一、接收器形式

优点：支持kafka的group.id设置，支持用kafka api查询offset，如果数据断掉后，可以通过group.id轻松找到上一次失败的位置

缺点：

1.失败处理复杂。由于kafka队列信息由kafka自己记录，当spark消费了数据但是处理中出错时会导致数据丢失。为了避免数据丢失就必须开启Write Ahead Logs，把spark接收到的数据都存储到分布式文件系统中，比如HDFS，然后失败时从存储的记录中找到失败的消息。这导致同一批数据被kafka和spark存储了2次。造成数据冗余。

2.如果有多个地方都想获取同一个kafka队列的数据，必须建立多个流，无法用一个流并行处理。

该方法是比较老的一种方式，并不太被推荐。

二、直连形式

优点：

1. 不需两次存储数据，直连形式时，spark自己管理偏移信息，不再使用kafka的offset信息。所以spark可以自行处理失败情况，不要再次存储数据。spark保证数据传输时Exactly-once。

2.只需建立一个流就可以并行的在多个地方使用流中的数据

缺点：

不支持kafka的group，不支持通过kafka api查询offset信息！！！！

在连接后sp

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kafka python 性能 spark对比_【python】spark+kafka使用

网上用python写spark+kafka的资料好少啊自己记录一点踩到的坑~上面两个是最重要的资料，大多数问题可以通过仔细研读上面两个文档得到答案官网上说了，spark和kafka连用有两种方式：接收器形式以及直连形式一、接收器形式优点：支持kafka的group.id设置，支持用kafka api查询offset，如果数据断掉后，可以通过group.id轻松找到上一次失败的位置缺点：1...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。