分区表(动,静) :
分区表是将表的数据以查询维度为依据分文件夹管理 , 当根据这个维度查询的时候就可以减少数据的检索范围
比如有一个log表 所有的日志数据在log表目录下 ,假如想查20201130日的数据 , 只能遍历所有的数据。
有了分区表以后 数据就可以以日期为维度 为文件夹存储对应日期的数据 假如想查20201130日的数据直接从对应的20201130文件夹下读取数据
静态分区:
文件中存储的是指定规则的数据,比如 a.log中存储的全是20201130的数据
直接创建一个分区叫20201130,加载数据时直接将其load到20201130目录下,
静态分区查询需要手动维护分区目录,效率较低
动态分区:
比如a.log中既有20201130数据 又有20201129数据 还有20191111的数据
只能根据日期字段的值创建分区 将对应的数据分配指定的分区
– 静态分区
1)前提有静态数据
2)创建分区表
3)将静态数据导入到指定的分区中
前提有静态数据
20201128.log
1,url1,20201128
2,url2,20201128
3,url3,20201128
4,url4,20201128
5,url5,20201128
6,url6,20201128
7,url7,20201128
20201129.log
1,url1,20201129
2,url2,20201129
3,url3,20201129
4,url4,20201129
5,url5,20201129
6,url6,20201129
7,url7,20201129
20201130.log
1,url1,20201130
2,url2,20201130
3,url3,20201130
4,url4,20201130
5,url5,20201130
6,url6,20201130
7,url7,20201130
20201029.log
1,url1,20201029
2,url2,20201029
3,url3,20201029
4,url4,20201029
5,url5,20201029
6,url6,20201029
7,url7,20201029
20201030.log
1,url1,20201030
2,url

本文详细介绍了Hive中的分区表概念,包括静态分区和动态分区的使用。静态分区需要手动维护分区目录,而动态分区可以根据字段值自动创建分区。通过实例展示了如何创建、加载数据到分区表以及查询、修改分区。
最低0.47元/天 解锁文章
619

被折叠的 条评论
为什么被折叠?



