streaming kafka direct 详解

最新推荐文章于 2024-09-05 09:02:10 发布

weixin_30604651

最新推荐文章于 2024-09-05 09:02:10 发布

阅读量49

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/sunrye/p/6504884.html

版权

http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/

http://www.jianshu.com/p/b4af851286e5

streaming通过direct接收数据的入口是createDirectStream，调用该方法的时候会先创建

val kc = new KafkaCluster(kafkaParams)

这个类会获取kafka的partition信息，并创建DirectKafkaInputStream类，每个类都对应一个topic，通过foreachRDD可以获取每个partition的offset等信息。到了batch time后，这个类的compute方法就会被调用（这块可以参考spark streaming文件夹下的文章），接着就是：

1. 获取kafka partition的untilOffset，这样就确定了获取数据的区间

2. 构建一个kafkaRDD实例。

3. 将offset信息报给InputInfoTracker

4. 返回该RDD

kafkaRDD和一般的RDD一样，整个过程都是lazy的，数据都是放在kafka中，只有真正action的时候才会从kafka拉取数据。

转载于:https://www.cnblogs.com/sunrye/p/6504884.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30604651

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
streaming kafka direct 详解

http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ http://www.jianshu.com/p/b4af851286e5 streaming通过direct接收数据的入口是createDirectStream，调用该方法的时候会先创建val kc = new Ka...
复制链接

扫一扫