目录
0 引 言
本文围绕hive中分桶问题进行展开研究,分析了hive分桶与分区的区别,分桶的相关原理、分桶的优势,并对分桶的操作方法进行详细论述,给出了具体的操作步骤及案例,本文所有的操作案例均在机器上得到验证,读者可根据本文所提供的思路快速学习到hive分桶的相关知识。
1 分桶与分区的区别
分区针对的是数据的存储路径;分桶针对的是数据文件。
分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。
2 分桶及抽样查询
(1)分桶规则
分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,