此段将提取HK0920中重复记录的MAX ROWID,然后删除源表中的这些刻录,如此循环,直到无重复记录(因为有很多记录的重复次数是>1的) ,此数据量为600W,重复率不到为0.66%.每次循环大概一分半钟,我们这里总计用了5分钟
Declare
v_num_rows Number;
cnt Number:=0;
Begin
Loop
v_num_rows:=0;
cnt:=cnt+1;
Execute Immediate 'Truncate Table tmp_dup_maxrid';
Insert Into tmp_dup_maxrid Select Max(Rowid) max_rid From hk0920 Group By line Having Count(*) >1;
v_num_rows := sql%rowcount;
dbms_output.put_line(cnt||': 提取记录Rowid:'||v_num_rows);
Exit When Sql%Notfound;
Commit;
v_num_rows:=0;
Delete From hk0920 t1 Where Rowid In (Select t2.max_rid From tmp_dup_maxrid t2 );
v_num_rows := sql%rowcount;
dbms_output.put_line(cnt||': 删除记录:'||v_num_rows);
Commit;
End Loop;
Rollback;
End;
执行输出:
1: 提取记录Rowid:40120
1: 删除记录:40120
2: 提取记录Rowid:786
2: 删除记录:786
3: 提取记录Rowid:29
3: 删除记录:29
4: 提取记录Rowid:3
4: 删除记录:3
5: 提取记录Rowid:0
然后执行TXT输出到本地:
SQL> Grant Read,Write On Directory DATA_FILE_DIR To qdata;
SQL> exec PRC_DL_FILE;
此法适合重复率较小,在5~10%之内, 重复次数不是很多的情况下处理,如果多了,直接用DISTINCT或分区表来处理
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/183473/viewspace-675744/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/183473/viewspace-675744/