Hive为什么要分桶？

最新推荐文章于 2024-06-09 08:06:55 发布

小布先生~噫嘘唏

最新推荐文章于 2024-06-09 08:06:55 发布

阅读量2.2k

点赞数 4

分类专栏： hadoop知识点文章标签： hive 大数据 hadoop 数据仓库

本文链接：https://blog.csdn.net/Clittle225/article/details/130437947

版权

hadoop知识点专栏收录该内容

14 篇文章 3 订阅

订阅专栏

1.获得更高的查询处理效率

在分区数量过于庞大以至于可能导致文件系统崩溃时，或数据集找不到合理的分区字段时，我们就需要使用分桶来解决问题了。

分区中的数据可以被进一步拆分成桶，不同于分区对列直接进行拆分，桶往往使用列的哈希值对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。

注意，hive使用对分桶所用的值进行hash，并用hash结果除以桶的个数做取余运算的方式来桶，保证了每个桶中都有数据，但每个桶中的数据条数不一定相等。

如果另外一个表也按照同样的规则分成了一个个小文件。两个表join的时候，就不必要扫描整个表，只需要匹配相同分桶的数据即可，从而提升效率。

在数据量足够大的情况下，分桶比分区有更高的查询效率。

（

2.数据采样

在真实的大数据分析过程中，由于数据量较大，开发和自测的过程比较慢，严重影响系统的开发进度。此时就可以使用分桶来进行数据采样。采样使用的是一个具有代表性的查询结果而不是全部结果，通过对采样数据的分析，来达到快速开发和自测的目的，节省大量的研发成本。

3.分桶和分区的区别

1. 分桶和分区两者不干扰，可以把分区表进一步分桶；

2. 分桶对数据的处理比分区更加细粒度化：分区针对的是数据的存储路径；分桶针对的是数据文件；

3. 分桶是按照列的哈希函数进行分割的，相对比较平均；而分区是按照列的值来进行分割的，容易造成数据倾斜。

4. 文本数据处理

注意：对于分桶表，不能使用load data的方式进行数据插入操作，因为load data导入的数据不会有分桶结构。

如何避免针对桶表使用load data插入数据的误操作呢？

--限制对桶表进行load操作
set hive.strict.checks.bucketing = true;

也可以在CM的hive配置项中修改此配置，当针对桶表执行load data操作时会报错。

那么对于文本数据如何处理呢？

(1. 先创建临时表，通过load data将txt文本导入临时表。

--创建临时表
create table temp_buck(id int, name string)
row format delimited fields terminated by '\t';
--导入数据
load data local inpath '/tools/test_buck.txt' into table temp_buck;

(2. 使用 insert select 语句间接的把数据从临时表导入到分桶表。

--启用桶表
set hive.enforce.bucketing=true;
--限制对桶表进行load操作
set hive.strict.checks.bucketing = true;
--insert select
insert into table test_buck select id, name from temp_buck;
--分桶成功

小布先生~噫嘘唏

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Hive为什么要分桶？

不同于分区对列直接进行拆分，桶往往使用列的哈希值对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。注意，hive使用对分桶所用的值进行hash，并用hash结果除以桶的个数做。在数据量足够大的情况下，分桶比分区有更高的查询效率。3. 分桶是按照列的哈希函数进行分割的，相对。的方式来桶，保证了每个桶中都有数据，但每个桶中的数据条数。，因为load data导入的数据不会有分桶结构。而不是全部结果，通过对采样数据的分析，来达到。而分区是按照列的值来进行分割的，容易造成。
复制链接

扫一扫