这几周DW部分common表刷新速度很慢,经分析是数据量过大,这两天都在想优化的方式,定下来从分区入手。
目前ODS通过kettle同步过来的数据都是非分区的,部分大表都在2亿以上,分区迫在眉睫。
先是从我常用的一个common表入手,之前计划对常用的字段如状态、创建时间做list-range分区,但考虑到状态变化会导致分区键变化,后决定只使用创建时间做range分区,并且对已有的数据按照数据分布先生成部分分区,然后按照interval 1天或是7天自动创建分区。
表结构定义(15年之前同一分区,15年之后每月一个分区,16之后每7天一个分区)
CREATE TABLE TABLE_NAME
(C1 DATE,
C2 NUMBER,
…)
PARTITION BY RANGE(C1)
INTERVAL (NUMTODSINTERVAL(7,’DAY’))
(
PARTITION P2014 LESS THAN(TO_DATE(‘2015-01-01 00:00:00’,’YYYY-MM-DD HH24:MI:SS’)),
PARTITION P201501 LESS THAN(TO_DATE(‘2015-02-01 00:00:00’,’YYYY-MM-DD HH24:MI:SS’)),
…….
PARTITION P20151231 LESS THAN(TO_DATE(‘2016-01-01 00:00:00’,’YYYY-MM-DD HH24:MI:SS’)),
PARTITION P20160107 LESS THAN(TO_DATE(‘2016-01-01 00:00:00’,’YYYY-MM-DD HH24:MI:SS’))
);
表定义之后,就是数据迁移了,非分区表到分区表有多种方式,
在线方