Kudu如何存储数据,每个表分区策略???
Kudu使用注意事项:
Kudu集群对时间同步极其严格
6、DataFrame与Dataset、RDD区别
RDD叫做弹性分布式数据集
与RDD类似,DataFrame是一个分布式数据容器,但是DataFrame不是类型安全的。
DataSet是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点
RDD 特性有哪些??你是如何理解RDD的???
RDD是分布式弹性数据集,
为什么Spark计算比较快,与MapReduce相比较优势是什么??
基于内存计算
SparkSQL中优化有哪些???使用常见函数有哪些???
能介绍下你所知道和使用过的Spark调优吗?
资源参数调优
- num-executors:设置Spark作业总共要用多少个Executor进程来执行
- executor-memory:设置每个Executor进程的内存
- executor-cores:设置每个Executor进程的CPU core数量
- driver-memory:设置Driver进程的内存
- spark.default.parallelism:设置每个stage的默认task数量
- …
开发调优
- 避免创建重复的RDD
- 尽可能复用同一个RD