往期链接:
Spark基础:Spark SQL入门
Spark基础:数据读写
Spark基础:读写Parquet
Spark基础:读写Hive
Spark基础:读写JDBC
为了优化Spark应用提升运行速度,一般会把数据缓存到内存 或者 开启一些试验特性进行优化。本篇就来说说Spark SQL中的一些优化参数。
1 缓存
Spark SQL支持把数据缓存到内存,可以使用 spark.catalog.cacheTable("t") 或 df.cache()。这样Spark SQL会把需要的列进行压缩后缓存,避免使用和GC的压力。可以使用 spark.catalog.uncacheTable("t") 移除缓存。Spark也支持在SQL中控制缓存,如 cache table t 缓存表t,uncache table t 解除缓存。可以通过在 setConf 中配置下面的选项,优化缓存: