1.硬件选择
服务器个数 内存、磁盘的大小
服务器台数= 2 * (生产者峰值生产速率 * 副本 / 100) + 1
括号内向上进位 所以为1
假如峰值是20m/s 副本为2 那么应该是3台
2.生产者调优
buffer.memory 默认是32兆 可增大
batch.size 默认是16K 可增大
linger.ms 默认是0S 表示直接发送 可设置为1-5ms
acks 默认是-1 假如只是日志数据 可设置为1
retries 重试次数 默认是int最大值
max.in.flight.requests.per.connection 允许最大没有ack值返回的个数 默认是5
compression.type 默认是none 支持none、gzip、snappy、lz4 和 zstd
2.broker调优
修改分区数 (只能增大 不能减小)
增加副本因子
leader负载均衡 默认是开启 建议关闭或者调大负载均衡触发的阈值
自动创建主题 (为了安全性着想,建议关闭)
3.消费者调优
指定offset消费
增大吞吐量:
- 增大poll 默认最大500条
- Fetch.max.bytes每批次最大抓取大小,默认50m
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。