Kafka
从0到1哦
喜欢大数据行业,热爱技术,时刻追随着大数据的发展
展开
-
kafka log文件和offset原理
log与offset日志存储路径根据配置log.dirs ,日志文件通过 topic-partitionId分目录,再通过log.roll.hours 和log.segment.bytes来分文件,默认是超过7天,或者是1GB大小就分文件,在kafka的术语中,这被称为段(segment )。例如00000000000000033986.log,文件名就是offset,除了数据文件之外,相应的还...原创 2018-12-06 20:34:27 · 2508 阅读 · 1 评论 -
kafka不丢失数据与不重复消费数据
一、不丢失数据1.生产者数据不丢失同步模式:配置=1(只有Leader收到,-1所有副本成功,0不等待)。leader partition挂了,数据就会丢失。解决:设置为-1保证produce写入所有副本算成功 producer.type=sync request.required.acks=-1异步模式,当缓冲区满了,如果配置为0(没有收到确认,一...原创 2019-01-12 20:31:10 · 13489 阅读 · 3 评论 -
Kafka的Log存储原理再析
1、Partition中的分段存储Segment一个partition被切割成多个相同大小的segment(这个是由log.segment.bytes 决定,控制每个segment的大小)2、Partition中的Segment文件的数据结构接下来看下segment的存储结构segment file组成:由2大部分组成,分别为index file和data file,此2个文件一一对应,成...原创 2019-01-24 10:28:07 · 2779 阅读 · 0 评论 -
spark streaming 消费 kafka 数据时报 Java .lang.IllegalStateException: No current assignment for partition
消费 kafka 数据时刚开始可以稳定跑一会,但是过不了几分钟就跑出此异常程序中断,java.lang.IllegalStateException: No current assignment for partition解决:是因为我在集群上跑着消费程序,本地也在用相同的消费代码测试,结果就出现了同一个 groupID 在同一时刻多次消费同一个 topic,引发 offset 记录问题。...原创 2019-05-16 20:57:46 · 8948 阅读 · 0 评论