转自:
【readme】
背景: 从业务库抽取历史数据到备份库时, 因业务库数据表的数据量过大,比如单日超过10w,可能导致事务缓存顶满而导致抽数报错;
需要对历史数据进行分区,每个分区是一个独立事务,如每个分区仅包含1000条数据,即可解决历史数据量过大导致的抽数报错问题;
使用索引分区,api是 mapPartitionsWithIndex;
即 第1~第1000 是分区1;
第1001~第2000 是分区2;
......
转自:
背景: 从业务库抽取历史数据到备份库时, 因业务库数据表的数据量过大,比如单日超过10w,可能导致事务缓存顶满而导致抽数报错;
需要对历史数据进行分区,每个分区是一个独立事务,如每个分区仅包含1000条数据,即可解决历史数据量过大导致的抽数报错问题;
使用索引分区,api是 mapPartitionsWithIndex;
即 第1~第1000 是分区1;
第1001~第2000 是分区2;
......