大表滤重方案

此段将提取HK0920中重复记录的MAX ROWID,然后删除源表中的这些刻录,如此循环,直到无重复记录(因为有很多记录的重复次数是>1的) ,此数据量为600W,重复率不到为0.66%.每次循环大概一分半钟,我们这里总计用了5分钟
 
Declare 
       v_num_rows Number;
       cnt Number:=0;
Begin
  Loop
   v_num_rows:=0;
   cnt:=cnt+1;
   Execute Immediate 'Truncate Table tmp_dup_maxrid';
   Insert Into tmp_dup_maxrid Select Max(Rowid) max_rid From hk0920 Group By line Having Count(*) >1;
   v_num_rows := sql%rowcount;
   dbms_output.put_line(cnt||': 提取记录Rowid:'||v_num_rows);
   Exit When Sql%Notfound;
   Commit;
   
   v_num_rows:=0;
   Delete From hk0920 t1 Where Rowid In (Select t2.max_rid From tmp_dup_maxrid t2 );
   v_num_rows := sql%rowcount;
   dbms_output.put_line(cnt||': 删除记录:'||v_num_rows);
   Commit;
   
  End Loop;
  Rollback;
End;
 
执行输出:
 
1: 提取记录Rowid:40120
1: 删除记录:40120
2: 提取记录Rowid:786
2: 删除记录:786
3: 提取记录Rowid:29
3: 删除记录:29
4: 提取记录Rowid:3
4: 删除记录:3
5: 提取记录Rowid:0
 
然后执行TXT输出到本地:
 
SQL> Grant Read,Write On Directory DATA_FILE_DIR To qdata;
 
SQL> exec PRC_DL_FILE;
 
此法适合重复率较小,在5~10%之内, 重复次数不是很多的情况下处理,如果多了,直接用DISTINCT或分区表来处理
 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/183473/viewspace-675744/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/183473/viewspace-675744/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值