Hive中的数据分桶

最新推荐文章于 2024-05-05 04:32:31 发布

随风奔跑之水

最新推荐文章于 2024-05-05 04:32:31 发布

阅读量2.9k

点赞数 1

分类专栏： Hadoop 文章标签： hive 大数据

本文链接：https://blog.csdn.net/weixin_40873462/article/details/109595170

版权

1、数据分桶的适用场景：

分区提供了一个隔离数据和优化查询的便利方式，不过并非所有的数据都可形成合理的分区，尤其是需要确定合适大小的分区划分方式，（不合理的数据分区划分方式可能导致有的分区数据过多，而某些分区没有什么数据的尴尬情况）

试试分桶是将数据集分解为更容易管理的若干部分的另一种技术。

2、数据分桶的原理:

跟MR中的HashPartitioner的原理一模一样

MR中：按照key的hash值去模除以reductTask的个数

Hive中：按照分桶字段的hash值去模除以分桶的个数

Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

3、数据分桶的作用:

（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。
（2）使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

4、创建数据分桶表:

创建数据分桶表与普通表的区别并不太大，如下为一个创建数据分桶表的示例：

use clickcube;

CREATE EXTERNAL TABLE `clickcube_mid`(
`logtype` bigint,
`date` string,
`hour` bigint,
`projectid` bigint,
`campaignid` bigint,
`templateid` bigint,
`mediaid` bigint,
`slotid` bigint,
`channeltype` bigint,
`regioncode` string,
`campclick` bigint,
`campimp` bigint,
`mediaclick` bigint,
`mediaimp` bigint,
`templateimp` bigint,
`templatecampimp` bigint,
`mediaclickcost` double,
`campclickcost` double)
PARTITIONED BY (
`day` string)
CLUSTERED BY (
`campaignid`, `mediaid` ) INTO 100 BUCKETS
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTF

最低0.47元/天解锁文章

随风奔跑之水

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Hive中的数据分桶

参考文章：hive分桶管理https://blog.csdn.net/freefish_yzx/article/details/77150714hive的分区和分桶https://blog.csdn.net/wl1411956542/article/details/52931499---------------------------------------------------------------------------------------------------------
复制链接

扫一扫