生产中kafka集群需要规划多大的存储空间

生产中kafka集群需要规划多大的存储空间

说明kafka会把消息保存到磁盘中,这些消息默认保存一段时间之后就会被自动删除,多久删除是通过配置文件自己配置规划的。

一、需要考虑一下几点问题

1:增量消息
2:消息的留存时间
3:消息副本数
4:平均每条消息的大小
5:是否使用消息压缩

二、举例计算一下
假如每天5亿1KB大小的消息,副本数是3个,保存一周的时间,那么总的空间大小就是:5亿 * 1KB * 3 * 7 /1024/1024 差不多10T,再流程10%的索引数据的存储空间,10 + 10 * 0.1 = 11T,采用压缩的方式存储,假如压缩比是0.75,那么存储空间就是 11T * 0.75 = 8.25T

三、带宽
1、对于像kafka这种通过网络大量进行数据传输的消息引擎,带宽很容易成为瓶颈,带宽也是稀缺资源,尤其是跨数据中心,或者跨机房的kafka,就比较尴尬了。宽带的效率直接影响着kafka集群节点的数量,由于宽带会影响处理速度,为了达到实际的业务要求只能通过机器数量来弥补了。
2、假设生产中是网络带宽为:1Gbps,业务目标是一小时处理1TB的数据,那么需要多少台kafka机器了?假设带宽千兆网,也就是1Gbps,通常kafka可以使用到70%宽带资源,因为要为其他进程留出一定的资源。要是超过70%,kafka就有可能丢包了,因此可以看出单台kafka机器的最大带宽资源就是700Mb,但是,不能让kafka常规性的使用这么多资源,一般都会留出2/3的资源,所以单台服务器所使用的带宽也就只有可怜的 700/3 约= 240Mb了,2/3已经是相当保守了,这个也要根据实际的情况来减少此值。现在我们确定一台kafka的带宽是240Mb,那么一小时需要处理1T的数据,那么每秒就是2328Mb,(10241024/3600 约= 291MBps,带宽资源用Mbps表示,而不是MBps,磁盘占有一般是MB,由于1byte =8 bit,所以带宽资源就是291 * 8 = 2328,*),那么需要2328 / 240 大约10台,但是由于与两个副本,所以在加20台,就是10 * 3 = 30台,所以kafka需要30台机器资源才能满足当前的业务要求

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值