对于一般大数据物流项目的面试题(问题+答案)_物流面试基本问题和答案(1)

2401_84166258

已于 2024-05-04 12:33:01 修改

阅读量879

点赞数 23

分类专栏：程序员文章标签：大数据面试职场和发展

于 2024-05-04 12:32:59 首次发布

本文链接：https://blog.csdn.net/2401_84166258/article/details/138439008

版权

本文探讨了大数据物流项目面试中的关键问题，包括数据采集（如Canal和Kafka）、数据量管理、选择StructuredStreaming的原因、Kafka数据消费与偏移量保存、Kudu与HBase的对比，以及DataFrame、Dataset和RDD的区别。同时，文章还涉及Spark的资源调优策略和开发最佳实践。

摘要由CSDN通过智能技术生成

+ [9、ClickHouse 为什么选择，有哪些优势？？](#9ClickHouse__107)
+ [10、SparkSQL外部数据源实现（难点）](#10SparkSQL_110)
+ [12、业务线：你完成什么，你做了什么，你遇到什么问题，你是如何解决的？？？？](#12_113)

1、数据采集如何完成

OGG 不要涉及，Oracle DBA完成
Canal数据采集，一定知道高可用HA集群模式

2、数据量大小

Kafka topic 数据存储生命周期（多久）
7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数
分区数并不是越多越好，一般分区数不要超过集群机器数量。分区数越多占用内存越大（ISR 等），一个节点集中的分区也就越多，当它宕机的时候，对系统的影响也就越大。
分区数一般设置为：3-10 个

副本数设定
一般我们设置成 2 个或 3 个，很多企业设置为 2 个。

多少个 Topic
通常情况：多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置
Kafka 机器数量=2*（峰值生产速度*副本数/100）+1

3、实时增量ETL程序开发，为什么选择使用Struct

最低0.47元/天解锁文章

2401_84166258

关注

23
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
对于一般大数据物流项目的面试题(问题+答案)_物流面试基本问题和答案(1)

在算子函数中使用到外部变量时，默认情况下，Spark会将该变量复制多个副本，通过网络传输到task中，此时每个task都有一个变量副本。如果变量本身比较大的话（比如100M，甚至1G），那么大量的变量副本在网络中传输的性能开销，以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收)，都会极大地影响性能。从Spark-2.X版本后，Spark streaming就进入维护模式，Spark streaming是低阶API，给码农用的，各种坑；使用常见函数有哪些？RDD 特性有哪些？
复制链接

扫一扫