有两个文本A,B, 都为50w左右记录,A包含B, 求在A中存在,在B中不存在的记录(要求不能重复)
都有3列,格式如下,各列之间以空格分隔
uin Ftotal Fconsume
------------------------
11588 500 500
12398 2033 1900
13255 1000 1000
14360 1530 1210
对于DBAs 来说,最直接的方式是load to table,假设为tableA,tableB然后用下面sql求出结果集,才导出到文本中
select distinct t1.*
from tableA t1,tableB t2
where t1.uin not in (select t2.uin);
但请注意,上面两个文本都约有50w记录,上述sql会进行 50w*50w*将比较运算才能拿到结果,效率肯定不会好到哪里去,尤其是在轻量级的mysql等开源数据库的情况下.
那么是否有更加巧妙的方法实现呢?
以下是运用awk+uniq的实现
$awk '{print $2" "$3" "$1}' a.txt >a1.txt #为了跳过前两列进行uniq,将uin移到第三列
$awk '{print $2" "$3" "$1}' b.txt >b1.txt #同上
$cat a1.txt b1.txt |sort -k3n|uniq -f2 -u >result.txt
这里解释一下第三句
sort -k3是指从第3列开始排序,n是指以numeric方式排序,而非ascii;
uniq -f2是指跳过前面2列,-u是指取不重复的行
如果b.txt中的某行在a.txt中存在,则会因为 uniq -u排除掉
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/94384/viewspace-600309/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/94384/viewspace-600309/