瓜牛呱呱的博客

最美的不是下雨天,是曾与你躲过雨的屋檐

记用 SpringBoot 消费 Kafka 过程中的一次问题排查

1、现象 最近在接受公司Kafka的集群,之前公司重启一台服务器的时候出现重复消费的情况,所以就跟消费端的服务一起联调查册。消费端目前有两个服务,但是在测试的过程中发现其中一个服务可以接受到数据,但是另一个服务端却接受不到数据。于是查看了一下它的日志,关键日志如下: [INFO] org.ap...

2018-07-04 20:35:02

阅读数:172

评论数:0

Kafka Producer生产数据时数据丢失分析

今天在测试 Storm 程序过程中,想通过运行在 idea 的 Kafka Producer 生产一条数据来验证一下 Storm 程序,发现居然没有成功将数据生产到 Kafka 集群中,于是进行了一番测试,最终找到了原因! 注:下面程序测试中使用的 kafka 的版本为 0.10.2....

2018-05-10 15:59:05

阅读数:626

评论数:0

SparkStreaming Direct 方式中手动管理 Kafka Offset 的示例代码

在大数据的场景下,流式处理都会借助 Kafka 作为消息接入的中间件,且 SparkStreaming 中 Direct 方式的优越性,现在可以说都使用 Direct 方式来获取 Kafka 数据 Direct 方式是采用 Kafka 低级的 API 来获取数据,也就是说我们要自己来管理 这个...

2018-04-25 16:17:26

阅读数:425

评论数:0

SparkStreaming 中 Kafka 参数 auto.offset.reset 的说明

作用:如果Kafka中没有初始偏移或者当前偏移在服务器上不再存在时(例如,因为该数据已被删除)的处理方法。 Kafka单独写consumer时 可选参数: earliest:自动将偏移重置为最早的偏移量 latest:自动将偏移量重置为最新的偏移量(默认) none:如果consume...

2017-06-16 11:22:38

阅读数:1381

评论数:0

SparkStreaming采用直连方式(Direct Approach)获取Kafka数据的研究心得

这里不多介绍一些基础的,只说说我最近研究直连方式的心得 使用SparkStreaming的直连方式来进行流式处理,并且这个程序要可靠性,并且具有一致性(原子性),那么我心中就产生了如下的疑问: 1、如何保证直连方式中Kafka的offset的精准度 2、如何保证StreamingCont...

2017-05-17 18:40:03

阅读数:1630

评论数:1

Kafka相比于HDFS的优势

今天看到了一个面试题,“数据为什么不直接采集到HDFS,而是采集到Kafka中”,觉得蛮经典了,整理了一下:个人总结了四点:1、实时性:hdfs的实时性没有kafka高。2、消费量的记录:hdfs不会记录你这个块文件消费到了哪里,而基于zookeeper的kafka会记录你消费的点。3、并发消费:...

2017-05-08 15:50:51

阅读数:2090

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭