awk+uniq实现集合减法运算

有两个文本A,B, 都为50w左右记录,A包含B, 求在A中存在,在B中不存在的记录(要求不能重复)
都有3列,格式如下,各列之间以空格分隔

uin   Ftotal   Fconsume
------------------------
11588   500     500
12398   2033    1900
13255   1000    1000
14360   1530    1210

对于DBAs 来说,最直接的方式是load to table,假设为tableA,tableB然后用下面sql求出结果集,才导出到文本中
select distinct t1.*
  from tableA t1,tableB t2
  where t1.uin not in (select t2.uin);

但请注意,上面两个文本都约有50w记录,上述sql会进行 50w*50w*将比较运算才能拿到结果,效率肯定不会好到哪里去,尤其是在轻量级的mysql等开源数据库的情况下.

那么是否有更加巧妙的方法实现呢?
以下是运用awk+uniq的实现

$awk '{print $2" "$3" "$1}' a.txt >a1.txt   #为了跳过前两列进行uniq,将uin移到第三列
$awk '{print $2" "$3" "$1}' b.txt >b1.txt   #同上
$cat a1.txt b1.txt |sort -k3n|uniq -f2 -u >result.txt

这里解释一下第三句
sort -k3是指从第3列开始排序,n是指以numeric方式排序,而非ascii;
uniq -f2是指跳过前面2列,-u是指取不重复的行

如果b.txt中的某行在a.txt中存在,则会因为 uniq -u排除掉

 


 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/94384/viewspace-600309/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/94384/viewspace-600309/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值