Kudu如何存储数据,每个表分区策略???
Kudu使用注意事项:
Kudu集群对时间同步极其严格
6、DataFrame与Dataset、RDD区别
RDD叫做弹性分布式数据集
与RDD类似,DataFrame是一个分布式数据容器,但是DataFrame不是类型安全的。
DataSet是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点
RDD 特性有哪些??你是如何理解RDD的???
RDD是分布式弹性数据集,
为什么Spark计算比较快,与MapReduce相比较优势是什么??
基于内存计算
SparkSQL中优化有哪些???使用常见函数有哪些???
能介绍下你所知道和使用过的Spark调优吗?
资源参数调优
- num-executors:设置Spark作业总共要用多少个Executor进程来执行
- executor-memory:设置每个Executor进程的内存
- executor-cores:设置每个Executor进程的CPU core数量
- driver-memory:设置Driver进程的内存
- spark.default.parallelism:设置每个stage的默认task数量
- …
开发调优
- 避免创建重复的RDD
- 尽可能复用同一个RD

本文探讨了Kudu的数据存储策略、表分区注意事项,比较了DataFrame与RDD的区别,以及Spark的优化技术如RDD特性和SparkSQL优化。同时涉及Impala分析引擎、离线数仓的层次划分、ClickHouse的优势以及SparkSQL外部数据源的实现。以物流离线数仓为例,详细介绍了各个环节的技术应用和优化方法。
最低0.47元/天 解锁文章

1526

被折叠的 条评论
为什么被折叠?



