对于一般大数据物流项目的面试题(问题+答案)_物流面试基本问题和答案(1)

本文探讨了大数据物流项目面试中的关键问题,包括数据采集(如Canal和Kafka)、数据量管理、选择StructuredStreaming的原因、Kafka数据消费与偏移量保存、Kudu与HBase的对比,以及DataFrame、Dataset和RDD的区别。同时,文章还涉及Spark的资源调优策略和开发最佳实践。
摘要由CSDN通过智能技术生成
+ [9、ClickHouse 为什么选择,有哪些优势??](#9ClickHouse__107)
+ [10、SparkSQL外部数据源实现(难点)](#10SparkSQL_110)
+ [12、业务线:你完成什么,你做了什么,你遇到什么问题,你是如何解决的????](#12_113)

1、数据采集如何完成

OGG 不要涉及,Oracle DBA完成
Canal数据采集,一定知道高可用HA集群模式

2、数据量大小

Kafka topic 数据存储生命周期(多久)
7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数
分区数并不是越多越好,一般分区数不要超过集群机器数量。分区数越多占用内存越大(ISR 等),一个节点集中的分区也就越多,当它宕机的时候,对系统的影响也就越大。
分区数一般设置为:3-10 个

副本数设定
一般我们设置成 2 个或 3 个,很多企业设置为 2 个。

多少个 Topic
通常情况:多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置
Kafka 机器数量=2*(峰值生产速度*副本数/100)+1

3、实时增量ETL程序开发,为什么选择使用Struct

  • 23
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值