使用grep、sed、awk删除大文件包含另一个文件大量重复的记录

脚本实现如下:
前面一篇说了400w删除2千的记录速度还行。但是超过上万的记录时候就会报参数过长,因此写了这个程序:
批量处理、批量排除的思路
#!/bin/sh
acount=$(awk -F'|' '{if($6!=null) print $6}'  20170806.UPAY.OnLineRefund |uniq -u |wc -l)
if [ $acount == 0 ]
  then
  echo "没有重复的订单、退出程序"
  exit
else
  echo "有重复的订单"
  awk -F'|' '{if($6!=null) print $6}'  20170806.UPAY.OnLineRefund |sort|uniq -d > UPAY.txt
  mv 20170806.UPAY.OnLineRefund 20170806_0.UPAY.txt
  n=$(($acount/1000))
  m=$(($n+1))
  echo "有$m批次需要删除"
  for ((i=1;i<=$m;i++))
      do
        echo "$m+++$i"
        j=$(($i-1))
        nbeg=$(($j*1000+1))
        nend=$(($i*1000))
        echo "$nbeg+++$nend"
        aa=$(sed -n "$nbeg,${nend}p"  UPAY.txt|awk  '{printf "|"$1}')
        bb=`echo $aa|sed 's/.//'`
        echo "$bb"
        grep -v -E "$bb" 20170806_${j}.UPAY.txt > 20170806_${i}.UPAY.txt
      done
 echo "end"
fi
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值