sparksql
wangfutai91
钩深索隐,卓荦为杰。
展开
-
SparkSQL常用性能优化
一、代码优化1.在数据统计的时候选择高性能算子。例如Dataframe使用foreachPartitions将数据写入数据库,不要每个record都去拿一次数据库连接。通常写法是每个partition拿一次数据库连接。 /** * 将统计结果写入MySQL中 * 代码优化: * 在进行数据库操作的时候,不要每个record都去操...转载 2019-03-24 09:35:00 · 1041 阅读 · 2 评论 -
Spark Sql 性能调优
对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。在内存中缓存数据Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表.dataFrame.cache()。然后,Spark SQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。可以调用spark.catalog.uncach...转载 2019-03-24 09:35:43 · 379 阅读 · 0 评论