近期和一些朋友讨论了一些关于Spark 减少小文件的方案,这里记录一下,版权所有 《大数据私房菜》微信技术群 之 “HowardZack”
1. 贴上配置文件
spark - submit \
--conf spark.sql.adaptive.enabled = true \
--conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize = 134217728 \
--conf spark.sql.auto.repartition = true \
# 以下配置是针对join操作进行的性能优化
--conf spark.sql.adaptive.join.enabled = true \
--conf spark.sql.adaptive.skewJoin.enabled = true \
--conf spark.shuffle.consolidateFiles = true \
--conf spark.shuffle.service.enabled = true \
--conf spark.sql.adaptive.allowAdditionalShuffle = true
2. 后续有更新都会贴上
记录在这里只是方便查看,以免丢失,版权保持为上述原作者所有