对于一般大数据物流项目的面试题(问题+答案)_物流面试基本问题和答案(2)

最新推荐文章于 2024-05-13 20:16:42 发布

2401_84166306

最新推荐文章于 2024-05-13 20:16:42 发布

阅读量710

点赞数 17

分类专栏：程序员文章标签：大数据面试 wpf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84166306/article/details/138439018

版权

本文探讨了Kudu的数据存储策略、表分区注意事项，比较了DataFrame与RDD的区别，以及Spark的优化技术如RDD特性和SparkSQL优化。同时涉及Impala分析引擎、离线数仓的层次划分、ClickHouse的优势以及SparkSQL外部数据源的实现。以物流离线数仓为例，详细介绍了各个环节的技术应用和优化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Kudu如何存储数据，每个表分区策略？？？

Kudu使用注意事项:
Kudu集群对时间同步极其严格

6、DataFrame与Dataset、RDD区别

RDD叫做弹性分布式数据集
与RDD类似，DataFrame是一个分布式数据容器，但是DataFrame不是类型安全的。
DataSet是DataFrame API的一个扩展，是Spark最新的数据抽象，结合了RDD和DataFrame的优点

RDD 特性有哪些？？你是如何理解RDD的？？？
RDD是分布式弹性数据集,
为什么Spark计算比较快，与MapReduce相比较优势是什么？？
基于内存计算
SparkSQL中优化有哪些？？？使用常见函数有哪些？？？
能介绍下你所知道和使用过的Spark调优吗?

资源参数调优

num-executors：设置Spark作业总共要用多少个Executor进程来执行
executor-memory：设置每个Executor进程的内存
executor-cores：设置每个Executor进程的CPU core数量
driver-memory：设置Driver进程的内存
spark.default.parallelism：设置每个stage的默认task数量
…

开发调优

避免创建重复的RDD
尽可能复用同一个RD

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。