对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。
1,在内存中缓存数据
Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或使用内存中的列格式缓存表dataFrame.cache()。然后,Spark SQL将只扫描所需的列,并自动调整压缩以最大限度地减少内存使用和GC压力。你可以调用spark.catalog.uncacheTable("tableName")从内存中删除表。
内存中缓存的配置可以使用上面的setConf方法SparkSession或SET key=value使用SQL 运行 命令来完成。
属性名称 默认 含义
spark.sql.inMemoryColumnarStorage.compressed true 设置为true时,Spark SQL将根据数据的统计信息自动为每列选择压缩编解码器。
spark.sql.inMemoryColumnarStorage.batchSize 10000 控制列式高速缓存的批量大小。较大的批量大小可以提高内存利用率和压缩率,但是在缓存数据时会面临OOM风险。
2,其他配置选项
以下选项也可用于调整查询执行的性能。在将来的版本中,这些选项可能会被弃用,因为会自动执行更多的优化。
属性名称 默认 含义
spark.sql.files.maxPartitionBytes 134217728(128 MB) 读取文件时打包到单个分区的最大字节数。
spark.sql.files.openCostInBytes 4194304(4 MB) 可以同时扫描以字节数量度量的打开文件的估计成本。将多个文件放入分区时使用。
最好是高估,那么小文件的分区会比大文件的分区快