![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kafka
Wowfortune
这个作者很懒,什么都没留下…
展开
-
Kafka分区机制介绍与示例
Kafka中可以将Topic从物理上划分成一个或多个分区(Partition),每个分区在物理上对应一个文件夹,以”topicName_partitionIndex”的命名方式命名,该文件夹下存储这个分区的所有消息(.log)和索引文件(.index),这使得Kafka的吞吐率可以水平扩展。生产者在生产数据的时候,可以为每条消息指定Key,这样消息被发送到broker时,会根据分区规则选择被存储到哪转载 2017-09-22 20:48:44 · 506 阅读 · 0 评论 -
SparkStreaming数据零丢失方案
场景分析Sparkstream读取kafka消息队列数据时,如果Sparkstream突然由于一些非代码原因挂掉,重启Spark集群如何能确保Sparkstream能不丢失kafka队列内的数据。主要利用了kafka集群的offset值。offset记录了kafka每个分区数据读取到了哪里,类似于游标。有三种解决方案操作offset:1.Checkpoints详情参考http://spark.apa原创 2017-09-27 14:01:46 · 2222 阅读 · 0 评论