- 博客(2)
- 问答 (2)
- 收藏
- 关注
转载 spark streaming 读取kafka的offset
在使用Spark streaming读取kafka数据时,为了避免数据丢失,我们会在zookeeper中保存kafka的topic对应的partition的offset信息(每次执行成功后,才更新zk中的offset信息);从而保证执行失败的下一轮,可以从特定的offset开始读。 http://blog.csdn.net/rongyongfeikai2/article/details/
2016-08-30 13:41:40 700
转载 kafka + spark streaming 架构
Kafka是一个分布式的发布-订阅式的消息系统,简单来说就是一个消息队列,好处是数据是持久化到磁盘的(本文重点不是介绍kafka,就不多说了)。Kafka的使用场景还是比较多的,比如用作异步系统间的缓冲队列。 将一些数据(比如日志)写入到kafka做持久化存储,然后另一个服务消费kafka中的数据,做业务级别的分析,然后将分析结果写入HBase或者HDFS 正因
2016-08-29 16:09:25 1098
空空如也
oozie定时循环调度spark任务
2016-07-22
oozie调用shell中的问题
2016-07-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人