分区是一个事关重大而新手又容易忽略的问题,在查询中不加分区限制会导致一次遍历所有分区,占用大量服务器资源。所以分区看似简单,
却必须多加注意。
不同类型的表分区方式有所不同,下面根据表的分类来讲解分区的使用方法。
目前较常见的有两种类型的表,拉链表和非拉链表,具体表现形式如下:
拉链表:xx_xx_tablename_chain
非拉链表:增量表: xx_xx_tablename 全量快照:xx_xx_tablename_da
拉链表的使用方法:
1.包含HISTORY分区:
以订单拉链表为例fdm_pek_orders_chain
恢复2013-09-01的数据快照:select * from fdm_pek_orders_chain where start_date<='2013-09-01' andend_date >'2013-09-01' ; --适用任何情况
恢复当前的快照:select * from fdm_pek_orders_chain where dp='ACTIVE'or dp='HISTORY' --注意你要追历史上某一天的数据,就不适用了
2.不包含HISTORY分区:
以用户表为例fdm_pek_userinfo_chain
恢复2013-09-01的数据快照:select * from fdm_pek_userinfo_chain where start_date<='2013-09-01' andend_date >'2013-09-01' ; --适用任何情况
恢复当前的快照:select * from fdm_pek_orders_chain where dp='ACTIVE'--注意你要追历史上某一天的数据,就不适用了
非拉链表的使用方法:
1.增量表:
每天增量的数据都放在相应的日期分区中,
譬如你取最近3天的增量数据:select * from xx_xx_tablename where dt >=yesterday-2 and dt <=yesterday;
2.全量快照:
每天的分区都是一个全量
select * from xx_xx_tablename_da where dt='2013-09-01';--2013-09-01 当天的全量