大数据
文章平均质量分 83
大数据
涂荼
学习
展开
-
spark 任务优化
1.过滤掉不符合预期的热点key,例如由于日志信息丢失导致某个字段产生大量空值2.加入随机因素,打散热点key3.使用map join解决小表关联大表造成的数据倾斜问题大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性:spark.sql.parquet.enableVectorizedReader=true– 小文件合并的阈值set spark.sql.mergeSmallFileSize=268435456;– 小文件合并的task中,每个task读取的数据量set sp原创 2022-07-05 14:59:16 · 1422 阅读 · 1 评论 -
mapreduce任务优化
当SQL中包含Join/GroupBy/PartitionBy/DistributedBy等操作时,通过对上述操作所用到的列进行统计,通常就能够找到造成数据倾斜的热点key1.过滤掉不符合预期的热点key,例如由于日志信息丢失导致某个字段产生大量空值2.加入随机因素,打散热点key3.使用map join解决小表关联大表造成的数据倾斜问题map join是指将做连接的小表全量数据分发到作业的map端进行join,从而避免reduce task产生数据倾斜;hive.auto.convert.join原创 2022-07-05 14:40:06 · 620 阅读 · 0 评论