大数据Hive分区

最新推荐文章于 2023-03-08 17:07:18 发布

拾荒的程序员老头

最新推荐文章于 2023-03-08 17:07:18 发布

阅读量239

点赞数

分类专栏：大数据文章标签：大数据程序员编程语言

本文链接：https://blog.csdn.net/sdyuy/article/details/94600113

版权

本文介绍了Hive中如何对表进行分区，以提高查询效率。通过添加、重命名和删除分区的方法，使数据组织更加有序，便于部分查询。举例说明了如何根据日期对员工数据进行分区，以减少全表扫描的时间。同时，提供了添加、重命名和删除分区的Hive SQL语法。

摘要由CSDN通过智能技术生成

Hive组织表到分区。它是将一个表到基于分区列，如日期，城市和部门的值相关方式。使用分区，很容易对数据进行部分查询。

表或分区是细分成桶，以提供额外的结构，可以使用更高效的查询的数据。桶的工作是基于表的一些列的散列函数值。

例如，一个名为Tab1表包含雇员数据，如 id, name, dept 和yoj (即加盟年份)。假设需要检索所有在2012年加入，查询搜索整个表所需的信息员工的详细信息。但是，如果用年份分区雇员数据并将其存储在一个单独的文件，它减少了查询处理时间。下面的示例演示如何分区的文件和数据：

下面文件包含employee 数据表。

/tab1/employeedata/file1

  id, name, dept, yoj  1, gopal, TP, 2012  2, kiran, HR, 2012  3, kaleel,SC, 2013  4, Prasanth, SC, 2013

上面的数据被划分成使用年两个文件。

/tab1/employeedata/2012/file2

  1, gopal, TP, 2012  2, kiran, HR, 2012

/tab1/employeedata/2013/file3

  3, kaleel,SC, 2013  4, Prasanth, SC, 2013

可以通过添加分区表改变所述表。假设我们有一个表叫employee ，拥有如 Id, Name, Salary, Designation, Dept, 和 yoj等字段。

  ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec  [LOCATION 'location1'] partition_s

关注

专栏目录