自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Spark 和 kafka 集成 Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)

Kafka 0.10 与 Spark Streaming 流集成在设计上与0.8 Direct Stream 方法类似。它提供了简单的并行性,Kafka分区和Spark分区之间的1:1对应,以及对偏移量和元数据的访问。然而,由于新的集成使用了新的  Kafka consumer API 而不是简单的API,所以在使用方面有显著的差异。这个版本的集成被标记为实验性的,因此API有可能发生变化。链

2018-01-16 09:52:40 1695

原创 spark streaming kafka offset commit

由于spark的 rdd.asInstanceOf[HasOffsetRanges].offsetRanges这个操作:stream.foreachRDD { rdd => val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges rdd.foreachPartition { iter =>

2018-01-11 15:59:54 675

原创 HBase delete 删除不掉 排查

hbase delete 踩坑今日问题:看如下的解释删除指定的所有版本以及删除指定列删除指定列的最新版本,意思就是:如果删除了最新的版本,查询的时候就会返回第二新的版本了/** * Delete all versions of the specified column. * @param family family name * @param qualifier co

2018-01-11 13:56:42 4354

原创 关于Spark Streaming 如何进行commit kafka的offset

收到就提交提交方式 记为 X:接收到数据就会直接commit,假如某个batch失败,重启job,则消费会从上次commit的offset消费,所以会导致失败的那个batch的部分数据丢失。batch结束才commit的方式 记为 Y:  会有消息重复消费的问题。如果要保证消费的逻辑的正确性,则需要做处理逻辑是幂等的。举例:假设三个batch,每个batch有三条消息 t1

2018-01-11 13:40:28 1426

原创 Spark Streaming 和kafka 集成指导(kafka 0.8.2.1 或以上版本)

本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法:1、老的方法 -使用Receivers 和kafka的高级API2、新的方法( Spark 1.3 开始引入)-不适用Receivers。这两个方式拥有不同的编程模型,性能特征和语义保证,为了获得更多细节,继续往下读。对于目前的版本的spark。这两个方式都是稳定的。方法1 基于Receiver

2018-01-10 10:28:14 4054

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除