Hive0.5中Partition简述

最新推荐文章于 2022-04-05 19:18:27 发布

dajuezhao

最新推荐文章于 2022-04-05 19:18:27 发布

阅读量5.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Hive 文章标签： table string path file 存储工作

本文链接：https://blog.csdn.net/dajuezhao/article/details/5753055

本文介绍了Hive中Partition的概念，旨在优化查询性能。通过分区，可以将大表划分为更小、独立的部分，减少不必要的数据扫描。创建分区表时，使用`PARTITIONED BY`参数，并通过`ALTER TABLE ADD PARTITION`添加分区，以目录形式存储。此外，还讨论了数据加载、删除分区和查询分区的方法，强调分区在管理和加速查询中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、背景

1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。

2、分区表指的是在创建表时指定的partition的分区空间。

3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。

二、技术细节

1、一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。

2、表和列名不区分大小写。

3、分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示。

4、建表的语法（建分区可参见PARTITIONED BY参数）：
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
  [(col_name data_type [COMMENT col_comment], ...)]
  [COMMENT table_comment]
  [PARTITIONED BY (col_name data_type
    [COMMENT col_comment], ...)]
  [CLUSTERED BY (col_name, col_name, ...)
  [SORTED BY (col_name [ASC|DESC], ...)]
  INTO num_buckets BUCKETS]
  [ROW FORMAT row_format]
  [STORED AS file_format]
  [LOCATION hdfs_path]
5、分区建表分为2种，一种是单分区，也就是说在表文件夹目录下只有一级文件夹目录。另外一种是多分区，表文件夹下出现多文件夹嵌套模式。

a、单分区建表语句：create table day_ta