+ [9、ClickHouse 为什么选择,有哪些优势??](#9ClickHouse__107)
+ [10、SparkSQL外部数据源实现(难点)](#10SparkSQL_110)
+ [12、业务线:你完成什么,你做了什么,你遇到什么问题,你是如何解决的????](#12_113)
1、数据采集如何完成
OGG 不要涉及,Oracle DBA完成
Canal数据采集,一定知道高可用HA集群模式
2、数据量大小
Kafka topic 数据存储生命周期(多久)
7天
Kafka Topic 个数及分区数和副本
Kakfa 分区数
分区数并不是越多越好,一般分区数不要超过集群机器数量。分区数越多占用内存越大(ISR 等),一个节点集中的分区也就越多,当它宕机的时候,对系统的影响也就越大。
分区数一般设置为:3-10 个副本数设定
一般我们设置成 2 个或 3 个,很多企业设置为 2 个。多少个 Topic
通常情况:多少个日志类型就多少个 Topic。也有对日志类型进行合并的。
Kafka 集群规模及机器配置
Kafka 机器数量=2*(峰值生产速度*副本数/100)+1