hive 字符串转数字_再次分享！Hive调优，数据工程师成神之路

最新推荐文章于 2022-09-10 12:39:15 发布

维纳斯的诞生

最新推荐文章于 2022-09-10 12:39:15 发布

阅读量3.2k

点赞数

文章标签： hive 字符串转数字

本文链接：https://blog.csdn.net/weixin_33514277/article/details/112092680

版权

本文详述Hive调优的关键点，包括数据压缩、存储格式选择、分区与分桶策略、参数调整、SQL优化以及如何处理数据倾斜。建议使用ORCFile或Parquet配合Snappy压缩，合理利用分区和分桶提高查询效率。讲解了MapJoin、SMB Join等优化技术，并提供了解决数据倾斜的实用技巧。同时，强调了查看SQL执行计划以进一步优化性能的重要性。

摘要由CSDN通过智能技术生成

热文回顾：美团外卖离线数仓建设与实践

前言

毫不夸张的说，有没有掌握hive调优，是判断一个数据工程师是否合格的重要指标

hive调优涉及到压缩和存储调优，参数调优，sql的调优，数据倾斜调优，小文件问题的调优等

数据的压缩与存储格式

1. map阶段输出数据压缩，在这个阶段，优先选择一个低CPU开销的算法。

set hive.exec.compress.intermediate=trueset mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodecset mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

2. 对最终输出结果压缩

set hive.exec.compress.output=true set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec ## 当然，也可以在hive建表时指定表的文件格式和压缩编码

结论，一般选择orcfile/parquet + snappy 方式

合理利用分区分桶

分区是将表的数据在物理上分成不同的文件夹，以便于在查询时可以精准指定所要读取的分区目录，从来降低读取的数据量

分桶是将表数据按指定列的hash散列后分在了不同的文件中，将来查询时，hive可以根据分桶结构，快速定位到一行数据所在的分桶文件，从来提高读取效率

最低0.47元/天解锁文章

维纳斯的诞生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫