kafka
奔跑的max蜗牛
这个作者很懒,什么都没留下…
展开
-
kafka保证生产者和消费者数据不丢失解决方案
Producer根据指定的partition方法(默认round-robin(轮询)、hash等),将消息发布到指定topic的partition里面;kafka集群接收到Producer发过来的消息后,将其持久化到硬盘,并保留消息指定时长(可配置),而不关注消息是否被消费;Consumer从kafka集群pull数据,并控制获取消息的offset。producer 的deliver guara...转载 2018-12-28 22:49:42 · 5439 阅读 · 1 评论 -
kafka的Direct方式详解
1)Direct的方式是会直接操作kafka底层的元数据信息,这样如果计算失败了,可以把数据重新读一下,重新处理。即数据一定会被处理。拉数据,是RDD在执行的时候直接去拉数据。2)由于直接操作的是kafka,kafka就相当于你底层的文件系统。这个时候能保证严格的事务一致性,即一定会被处理,而且只会被处理一次。而Receiver的方式则不能保证,因为Receiver和ZK中的数据可能不同步,Sp...原创 2019-01-12 09:23:41 · 1486 阅读 · 0 评论 -
kafka0.9.0 新特性(对比0.8)
如果配置了enable.auto.commit为true和auto.commit.interval.ms=xxx,那么就按照这个频率进行commit; 为false时,就需要手动进行commit,可以使用同步方式commitSync,也可以使用 commitAsync 进行异步commit,对于异步确认的话,会返回一个hook,可以利用这个hook进行一定的业务逻辑处理。转载 2019-01-21 19:17:46 · 2247 阅读 · 0 评论