最近在维护kafka集群,遇到了很多问题都需要记录下:
集群信息:12台服务器,每台机子12块盘每块1.8T,其中6台做RAID,6台使用12块盘,64G内存,CPU24核,万兆网卡。集群每天写入的消息量能到每天33亿条消息,消费暂时还没有统计(通过ZK消费的消息量大概每天100亿,还有很大一部分走的SimpleConsumer没有统计)。
topic数量(截止2014-11-09):
topic -- 205个
集群数据存储量(截止2014-11-09): -- 总共容量252T,已经使用39.4T,已用百分比15.63%
16634 -- 4.2T
16781 -- 4.4T
16782 -- 4.8T
16783 -- 3.5T
16784 -- 3.5T
16785 -- 4.2T
18081 -- 225+181+214+205+214+208+199+194+371+199+192+184 = 2586G
18082 -- 226+187+202+212+209+209+193+178+241+291+179+183 = 2510G
18083 -- 207+200+214+210+208+207+182+181+212+189+183+187 = 2380G
18084 -- 207+187+211+211+209+213+180+188+370+191+193+184 = 2544G
18085 -- 213+194+207+207+219+210+180+186+199+192+190+200 = 2397G
18086 -- 222+194+215+202+216+211+198+191+188+197+184+183 = 2401G(12块盘每块1.8T的容量,这里G为单位)
网卡的上下行流量(截止2014-11-09):
16634,16785 --- 50mb/s左右
16784 --- 35mb/s左右
16783,16782,16781 --- 30mb/s左右
18081,18082,18083,18084,18085,18086 -- 20mb/s左右
最近9天写入kafka集群的消息情况如图(截止2014-11-09,临近双11流量的消息量翻倍):
1. kafka 的topic 级别的配置修改
创建topic 的时候可以指定topic 的自己的相关配置与集群配置冲突,优先走topic自己的配置,未配置的走集群配置
./kafka-topics.sh --zookeeper 127.0.0.1:2181/kafka_2_10 --create --topic avrotest1 --partitions 1 --replication-factor 1 --config max.message.bytes=64000 --config flush.messages