Hive动态分区和分桶使用场景和使用方法

小布先生~噫嘘唏

已于 2023-04-27 19:51:39 修改

阅读量3.8k

点赞数 4

分类专栏： hadoop知识点文章标签： hive hadoop 数据仓库大数据职场和发展

于 2023-04-27 18:39:54 首次发布

本文链接：https://blog.csdn.net/Clittle225/article/details/130412761

版权

本文详细介绍了Hive中的分区概念，包括静态分区和动态分区的使用方法，并对比了两者之间的区别。同时，文章还探讨了Hive的分桶特性，帮助读者更好地理解和应用大数据处理中的数据组织策略。

摘要由CSDN通过智能技术生成

1.分区

按照数据表的某列或某些列分为多个分区，分区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找。分区是以字段的形式在表结构中存在，通过describe table命令可以查看字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示。

1. 静态分区

create table if not exists sopdm.wyp2(id int,name string,tel string)
partitioned by(age int) row format delimited fields terminated by ‘,’ stored as textfile;
-- overwrite是覆盖，into是追加
insert into table sopdm.wyp2 partition(age=‘25’) select id,name.tel from sopdm.wyp;

2. 动态分区

-- 设置为true表示开启动态分区功能（默认为false）
set hive.exec.dynamic.partition=true

最低0.47元/天解锁文章

小布先生~噫嘘唏

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Hive动态分区和分桶使用场景和使用方法

按照数据表的某列或某些列分为多个分区，分区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找。• 通过普通表选出的字段包含分区字段，分区字段放置在最后，多个分区字段按照分区顺序放置。• 根据分区字段的实际值，动态进行分区。
复制链接

扫一扫