分区表(动,静) :
分区表是将表的数据以查询维度为依据分文件夹管理 , 当根据这个维度查询的时候就可以减少数据的检索范围
比如有一个log表 所有的日志数据在log表目录下 ,假如想查20201130日的数据 , 只能遍历所有的数据。
有了分区表以后 数据就可以以日期为维度 为文件夹存储对应日期的数据 假如想查20201130日的数据直接从对应的20201130文件夹下读取数据
静态分区:
文件中存储的是指定规则的数据,比如 a.log中存储的全是20201130的数据
直接创建一个分区叫20201130,加载数据时直接将其load到20201130目录下,
静态分区查询需要手动维护分区目录,效率较低
动态分区:
比如a.log中既有20201130数据 又有20201129数据 还有20191111的数据
只能根据日期字段的值创建分区 将对应的数据分配指定的分区
– 静态分区
1)前提有静态数据
2)创建分区表
3)将静态数据导入到指定的分区中
前提有静态数据
20201128.log
1,url1,20201128
2,url2,20201128
3,url3,20201128
4,url4,20201128
5,url5,20201128
6,url6,20201128
7,url7,20201128
20201129.log
1,url1,20201129
2,url2,20201129
3,url3,20201129
4,url4,20201129
5,url5,20201129
6,url6,20201129
7,url7,20201129
20201130.log
1,url1,20201130
2,url2,20201130
3,url3,20201130
4,url4,20201130
5,url5,20201130
6,url6,20201130
7,url7,20201130
20201029.log
1,url1,20201029
2,url2,20201029
3,url3,20201029
4,url4,20201029
5,url5,20201029
6,url6,20201029
7,url7,20201029
20201030.log
1,url1,20201030
2,url