1代码优化
在数据统计的时候选用高性能算子
写数据库的时候关闭自动提交,不要每条数据提交一次,自己手动每个批次提交一次
复用已有的数据
2集群压缩格式选用snappy
3集群储存格式选用parquet
4参数优化
并行度优化
sparksql性能调优
最新推荐文章于 2024-07-01 19:21:57 发布
1代码优化
在数据统计的时候选用高性能算子
写数据库的时候关闭自动提交,不要每条数据提交一次,自己手动每个批次提交一次
复用已有的数据
2集群压缩格式选用snappy
3集群储存格式选用parquet
4参数优化
并行度优化