kafka集群环境服务器大小选择

最新推荐文章于 2024-08-26 16:46:34 发布

Dobyi

最新推荐文章于 2024-08-26 16:46:34 发布

阅读量553

点赞数 1

文章标签： kafka

本文链接：https://blog.csdn.net/Dobyi/article/details/129841687

版权

假设前提条件：

1.系统用户日活数100万

2.每个用户产生的行为数据为100条

3.每条数据大小为1kb

4.kafka的副本数量为2个

5.kafka数据保存时间为3天

6.系统用户活跃时间为09:00-24:00，也就是16个小时

相关数据计算：

1.计算总数据量大小

100万 * 100条 * 1kb = 100G

2.计算平均访问量

1GB / 16h / 3600s = 1736kb/s 略等于 2m/s

3.计算访问峰值，按业界经验，峰值一般为平均值的20~30倍，即：

峰值 = 2m/s * (20 ~ 30) = 40m/s ~ 60m/s

4.计算服务器数量，同样按照业界公式：服务器数量 = 2 * (副本数 * 峰值 / 100) + 1，即：

服务器数量 = 2 * (2 * 60 / 100) + 1 = 3.4 略等于4台，此处按最大峰值计算

5.计算每台服务器磁盘大小

由于数据存在副本和保留天数，初步估算总数据量大小为：

初步估算总数据量 = 100G * 2 * 3 = 600G

注意！！由于服务器并不是所有的磁盘空间都用来给到kafka存储数据，一般会使用70%

给到kafka，所以在上一步的基础上还要计算，即：

总数据量 = 600G / 0.7 = 857G 略等于 1T

然后分摊到4台服务器上，即每台服务器磁盘大小为250G

6.计算每台服务器内存大小

由于副本数据主要是作为备份，真正参与读写的数据为：100G * 3(保留天数)，

同样按照70%占比计算，即：

每台服务器内存大小 = 100G * 3 / 0.7 / 4 = 107G 略等于128G

以上计算方式仅供参考！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Dobyi

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Kafka企业搭建之Kafka集群规划

zxm8513CSDN博客

05-13

416

Kafka的特性：⾼吞吐量：kafka每秒可以处理⼏⼗万条消息。可扩展性：kafka集群⽀持热扩展- 持久性、可靠性：消息被持久化到本地磁盘，并且⽀持数据备份防⽌数据丢失容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）⾼并发：⽀持数千个客户端同时读写它主要包括以下组件：话题（Topic）：是特定类型的消息流。(每条发布到 kafka 集群的消息属于的类别，即 kafka 是⾯向 topic 的)⽣产者（Producer）：是能够发布消息到话题的任何对象(发布消息到 kaf..

Kafka系列之：增加Kafka节点扩展Kafka集群

zhengzaifeidelushang的博客

08-26

2009

Kafka系列之：增加Kafka节点扩展Kafka集群

参与评论您还未登录，请先登录后发表或查看评论

打造全球最大规模 Kafka 集群，Uber 的多区域灾备实践

http://www.54tianzhisheng.cn/

01-26

220

点击上方 "zhisheng"关注,星标或置顶一起成长Flink 从入门到精通系列文章作者 | Uber 工程博客译者 | 王者策划 | 蔡芳芳Uber 的 Kafk...

kafka集群如何根据数据量评估规模

最新发布

窦再兴的博客

08-26

752

要搞定10亿+请求，高峰期要支撑6万QPS，需要大约162T的存储空间。要搞定10亿+请求，需要7台物理机，每台物理机内存选择128G内存为主，这样内存会比较充裕。要搞定10亿+请求，需要7台物理机，每台物理机内存选择128G内存为主，需要16个cpu core(32个性能更好)。六、网卡评估要搞定10亿+评估项具体评估需要的资源量请求量10亿+读写请求QPS高峰期需要支撑6万QPS存储空间162T物理机7台硬盘选择使用普通机械硬盘硬盘数量每台服务器11块盘，每块盘2T数据。

Kafka学习笔记: 如何估算 kafka集群规模

张伯毅的专栏

12-23

5111

假设带宽是 1Gbps，即每秒处理 1Gb 的数据. 假设每台 Kafka 服务器都是安装在专属的机器上，也就是说每台 Kafka 机器上没有混布其他服务。通常情况下你只能假设 Kafka 会用到 70% 的带宽资源，因为总要为其他应用或进程留一些资源。根据实际使用经验，超过 70% 的阈值就有网络丢包的可能性了，故 70% 的设定是一个比较合理的值，也就是说单台 Kafka...

【一篇看全】工业相机常用数据传输协议速率对比（CameraLink，CXP，1/10/100GigE，USB）

素手挽剑

04-17

1万+

常用数据传输协议速率对比（CameraLink，CXP，1/10/100GigE，USB）

Kafka高性能集群部署与优化

BXA

07-07

2789

Kafka是由Apache Software Foundation开发的一个分布式流处理平台，源代码以Scala编写。Kafka最初是由LinkedIn公司开发的，于2011年成为Apache的顶级项目之一。高吞吐量：Kafka每秒可以处理数百万条消息。持久化：数据存储在硬盘上，支持数据可靠性和持久性。分布式：Kafka集群可以在多台服务器上运行，提供高可用性和容错性。多语言支持：Kafka提供多种编程语言的客户端API，包括Java、Python、Go等。

Kafka详解(包括kafka集群搭建)

热门推荐

wudidahuanggua的博客

09-29

6万+

对kafka细致的解析，从理论到集群搭建实战

kafka集群搭建文档

05-31

本篇文档将详细介绍如何在Linux环境中搭建Kafka集群，同时结合Hadoop和Spark的分布式安装，构建一个完整的数据处理平台。首先，搭建Kafka集群的基础条件包括： 1. 至少一台Linux服务器，但为了高可用性，推荐多台...

搭建kafka集群详细教程

03-23

一个Kafka集群通常包括多个服务器，称为Brokers，它们负责存储和传输消息。每个Broker都有自己的分区（Partitions），这些分区是有序且不可变的数据记录序列。此外，Kafka还需要Zookeeper作为分布式协调器，用于管理...

Kafka集群文档

05-09

- **Broker**: Kafka集群由多个Broker实例组成，每个Broker实例都是一个服务器节点，负责存储和处理消息。 - **Zookeeper**: Kafka集群依赖于Zookeeper来协调各个Broker间的活动，包括管理元数据、保持集群的一致性...

kafka生产者连接池

05-12

封装抽取了一个kafka生产者的连接池，能很好的用池的方式对kafka生产者连接点进行有效的管理

07-kafka硬盘大小

huaxing_ba的博客

05-28

337

题目：kafka硬盘大小答案： kafka底层是顺序写，固态硬盘和机械硬盘的顺序写速度差不多，但是机械硬盘便宜些，建议选择普通的机械硬盘每天总数据量：1亿条1k≈100g 100g副本2*保存时间3天/0.7≈1T 建议三台服务器硬盘总大小，大于等于1T ...

四、kafka集群与可靠性

来xghuang666的专栏

06-20

768

设置acks=all，且副本数为3极端情况1：默认min.insync.replicas=1，极端情况下如果ISR中只有leader一个副本时满足min.insync.replicas=1这个条件，此时producer发送的数据只要leader同步成功就会返回响应，如果此时leader所在的broker crash了，就必定会丢失数据！这种情况不就和acks=1一样了！所以我们需要适当的加大min.insync.replicas的值。

【项目实战】如何通过总的用户数据计算单台kafka所需磁盘容量？

本本本添哥

01-04

340

项目中需要用到Kafka来承接车机上来的接口数据，然后再转存到数据库，客户反馈，需要对生产环境中的Kafka的存储容量进行评估。以下是具体的算法内容

生产中kafka集群需要规划多大的存储空间

weixin_43525585的博客

04-09

4148

生产中kafka集群需要规划多大的存储空间说明：kafka会把消息保存到磁盘中，这些消息默认保存一段时间之后就会被自动删除，多久删除是通过配置文件自己配置规划的。一、需要考虑一下几点问题： 1：增量消息 2：消息的留存时间 3：消息副本数 4：平均每条消息的大小 5：是否使用消息压缩二、举例计算一下假如每天5亿条 1KB大小的消息，副本数是3个，保存一周的时间，那么总的空间大小就是：5亿...

大数据平台集群

郭首志的博客

08-18

2456

基本组件： Zookeeper：分布式协作框架节点数目：测试集群：3个生产集群：(7个差不多) 小型集群：3个或者5个中型集群：5个或者7个 ...

kafka线上环境搭建对软硬件要求

wenonedao的专栏

01-31

1700

kafka正式部署对环境的要求

kafka producer BufferPool

m0_46449152的博客

03-16

213

allocate 如果我们这次申请的批次的大小等于我们设定好的一个批次的大小,并且我们的内存池不为空，那么直接从内存池里面获取一个块内存就可以使用了。还有一种情况就是，我们整个内存池还剩10k的内存，但是我们这次申请的内存是32k,批次可能就是16k,但是我们的一条消息，就是32K -> max(16,32) = 当前批次 = 32K 可能一下子分配不了这么大的内存，但是可以先有点分配一点。如果分配的内存的大小还是没有要申请的内存大小大。内存池就会一直分配的内存，一点一点的去分配。等着别.

Storm与Kafka集群整合技术解析

在整合过程中，需要对Storm的Kafka Spout进行配置，以便正确连接到Kafka集群。这包括指定Kafka的Zookeeper地址，以及Storm Spout要监听的Topic。此外，还需要确定如何处理消息确认，例如，Storm可以配置为在消息被...