Hive：分桶

最新推荐文章于 2024-09-08 18:21:03 发布

家道消乏

最新推荐文章于 2024-09-08 18:21:03 发布

阅读量399

点赞数

分类专栏： Hive基础文章标签： hive 大数据

本文链接：https://blog.csdn.net/lian582796149/article/details/119033736

版权

20 篇文章 0 订阅

订阅专栏

分桶
- 分桶表是对列值取哈希值的方式，将不同数据放到不同文件中存储
- 对于 hive 中每一个表，分区都可以进一步进行分桶
- 由：列的哈希值 / （除以）桶的个数
  - 决定每条数据划分在哪个桶中
与分区的区别
- 分区：多级目录、每个目录存储固定特征的文件
场景
- 数据抽样（sampling）
开启支持分桶
- set hive.enforce.bucketing=true
  - 1.X 默认是 false
  - 2.x 之后没有，但是默认是支持的
  - MR 运行时会根据 bucket 的个数自动分配 reduce task 个数
    - 用户也可以通过 mapred.reduce.tasks 自已设置 reduce 任务个数，但分桶时不推荐使用
  - 一次作业产生的桶（文件数量）和 reduce task 个数一致

原本数据表

创建分桶表

创建分桶表，表中字段，以 age 字段做为（列哈希值），并指定4个分桶

向分桶表导入数据

分桶数与 reduce task 数相同

处理后的数据

四个分桶文件

文件名显示的：0、1、2、3，其实就是分桶文件的：1、2、3、4

每个分桶文件所写入的数据

桶表抽样查询

select * from 分桶表 tablesample(bucket 1 out of 4 on columns);

tablesample 语法

百分比抽样

tablesample(40 percent); 即：40%

数据大小抽样

tablesample(20M); 即：20M的数据

行数抽样

tablesample(1000 rows); 即：1000行数据

分桶抽样