SparkStreaming消费kafka中数据的方式有哪些?他们有什么区别?

前置知识点:

discretized Stream 是ss里面最基础的一个抽象,代表着一个以时间为键的RDD序列。将时间作为键,RDD作为值的一个hash表,反映着持续性的数据流和经过各种spark原语操作而得出的结果数据流。

1.receiver接收器方式  使用kafka里面的一个高级API,将生产的数据放在receiver里面包装成DS进行处理,而receiver不断接受数据存放在executor内存里面,所有数据存放在spark中executor内存,但失败的情况下回丢失数据,为了容错,可以考虑启用WAL日志(存储在HDFS上),缺点是WAL日志相当于复制了一份数据,kafka本身也有备份机制,故数据冗余。

2.direct 方式 绕过 receiver接收器 周期性查询kafka,根据kafka里面partition和topic的最新offset,当job启动时, 直接读取一定范围的数据并将数据包装成DS给到SS处理,即ss不存放数据,而是在处理过程中直接使用

区别:

1.receiver方式依赖zookeeper记录偏移量,那么与SS的偏移量记录可能会存在不一致的情况,且WAL日志相当于复制了一份数据,kafka本身也有备份机制,故数据冗余。

2.

direct的优点

(1)简化并行

receiver方式会创建多个kafka输入流,而direct方式实现了 spark分区和kafka分区一一对应,从kafka并行读取数据,便于理解。

(2)高效

省去WAL复制数据。

(3)exactly once semantic

direct方式是直接在SS中记录checkpoint

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值