kafka
liuwei063608
这个作者很懒,什么都没留下…
展开
-
kafka 效率优化
数据分区存储在topic内设置了多个分区,使kafka的消费者进程池能得到有序性保证和负载均衡,使得topic对应的消费组里的消费者们各自可以独享一个分区。如此的话,每个消费者是其消费的分区的唯一reader,在单个reader下当然保证了有序这件事。而且多个分区也使得负载可以比较平衡。具体流程:1. Producer根据指定的partition方法,将消息发布到指定topic的par原创 2015-06-02 22:59:58 · 5373 阅读 · 0 评论 -
CDH集群集成kafka
搭建要求:1.CDH环境已经搭建成功,在CDH上搭建kafka,要求用CDH上zookeeper管理kafka而不用kafka自带的zookeeper2.kafka_2.11-0.8.2.1.tgz已经上传到kafka集群环境中搭建步骤1. 主机操作修改hosts10.10.0.11 s1-110.10.0.12 s1-2 10.10.0.13 s1-310.1原创 2015-06-03 23:19:25 · 8568 阅读 · 0 评论 -
kafka分区原理图
一个Topic的多个分区,被分布在kafka集群中的多个server上。每个分区都有一个server为"leader";leader负责所有的读写操作,如果leader失效,那么将会有其他follower来接管(成为新的leader);follower只是单调的和leader 跟进,同步消息即可。由此可见作为leader的server承载了全部的请求压力,因此从集群的整体考虑,有多少个part原创 2015-06-05 16:39:51 · 7400 阅读 · 1 评论 -
centos挂载SSD
原来系统装在SSD上,现在准备在hdd上在系统,SSD用于kafka存放数据,增加kafka的数据插入IO速度此步骤为kafka准备工作空间1.1 找出SSDfdisk –l1.2 挂载硬盘fdisk /dev/sdan p 1 34defaultwq1.3 格式化SSDmkfs.ext4/dev/sda1.4 Mountmkdir /kafka原创 2016-01-15 13:46:45 · 3225 阅读 · 0 评论 -
cdh kafka环境搭建
3.上传以下文件4.按照http://www.tuicool.com/articles/ENjmeaY安装cdh和kafka原创 2016-02-17 14:08:18 · 1968 阅读 · 0 评论 -
kafka保证消息交付
消息交付保证1. kafka对消息的重复、丢失、错误以及顺序型没有严格的要求。2. kafka提供at-least-once delivery,即当consumer宕机后,有些消息可能会被重复delivery。3. 因每个partition只会被consumer group内的一个consumer消费,故kafka保证每个partition内的消息会被顺序的订阅。4. Kafk原创 2016-07-07 16:46:26 · 580 阅读 · 0 评论 -
kafka 设置auto.offset.reset
当不同group中,如果consumer第一次启动时候,在zookeeper中没有初始的offset(读取的offset,不是logfile 的offset),或者offset过大,那么设置smallest和largest才有效,如果smallest重新0开始读取,如果是largest从logfile的offset读取。一般情况下我们都是设置smallest原创 2016-10-18 16:03:23 · 10619 阅读 · 0 评论