- 博客(5)
- 收藏
- 关注
原创 Spark 和 kafka 集成 Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)
Kafka 0.10 与 Spark Streaming 流集成在设计上与0.8 Direct Stream 方法类似。它提供了简单的并行性,Kafka分区和Spark分区之间的1:1对应,以及对偏移量和元数据的访问。然而,由于新的集成使用了新的 Kafka consumer API 而不是简单的API,所以在使用方面有显著的差异。这个版本的集成被标记为实验性的,因此API有可能发生变化。链
2018-01-16 09:52:40 1695
原创 spark streaming kafka offset commit
由于spark的 rdd.asInstanceOf[HasOffsetRanges].offsetRanges这个操作:stream.foreachRDD { rdd => val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges rdd.foreachPartition { iter =>
2018-01-11 15:59:54 675
原创 HBase delete 删除不掉 排查
hbase delete 踩坑今日问题:看如下的解释删除指定的所有版本以及删除指定列删除指定列的最新版本,意思就是:如果删除了最新的版本,查询的时候就会返回第二新的版本了/** * Delete all versions of the specified column. * @param family family name * @param qualifier co
2018-01-11 13:56:42 4354
原创 关于Spark Streaming 如何进行commit kafka的offset
收到就提交提交方式 记为 X:接收到数据就会直接commit,假如某个batch失败,重启job,则消费会从上次commit的offset消费,所以会导致失败的那个batch的部分数据丢失。batch结束才commit的方式 记为 Y: 会有消息重复消费的问题。如果要保证消费的逻辑的正确性,则需要做处理逻辑是幂等的。举例:假设三个batch,每个batch有三条消息 t1
2018-01-11 13:40:28 1426
原创 Spark Streaming 和kafka 集成指导(kafka 0.8.2.1 或以上版本)
本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法:1、老的方法 -使用Receivers 和kafka的高级API2、新的方法( Spark 1.3 开始引入)-不适用Receivers。这两个方式拥有不同的编程模型,性能特征和语义保证,为了获得更多细节,继续往下读。对于目前的版本的spark。这两个方式都是稳定的。方法1 基于Receiver
2018-01-10 10:28:14 4054
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人