awk+uniq实现集合减法运算

最新推荐文章于 2023-06-24 14:19:39 发布

congchenjin2969

最新推荐文章于 2023-06-24 14:19:39 发布

阅读量329

点赞数

文章标签： awk shell 数据库

有两个文本A,B, 都为50w左右记录,A包含B, 求在A中存在，在B中不存在的记录(要求不能重复)
都有3列,格式如下,各列之间以空格分隔

uin Ftotal   Fconsume
------------------------
11588   500     500
12398   2033    1900
13255   1000    1000
14360   1530    1210

对于DBAs 来说，最直接的方式是load to table,假设为tableA,tableB然后用下面sql求出结果集，才导出到文本中
select distinct t1.*
from tableA t1,tableB t2
where t1.uin not in (select t2.uin);

但请注意，上面两个文本都约有50w记录,上述sql会进行 50w*50w*将比较运算才能拿到结果,效率肯定不会好到哪里去,尤其是在轻量级的mysql等开源数据库的情况下.

那么是否有更加巧妙的方法实现呢？
以下是运用awk+uniq的实现

$awk '{print $2" "$3" "$1}' a.txt >a1.txt #为了跳过前两列进行uniq,将uin移到第三列
$awk '{print $2" "$3" "$1}' b.txt >b1.txt #同上
$cat a1.txt b1.txt |sort -k3n|uniq -f2 -u >result.txt

这里解释一下第三句
sort -k3是指从第3列开始排序,n是指以numeric方式排序,而非ascii;
uniq -f2是指跳过前面2列,-u是指取不重复的行

如果b.txt中的某行在a.txt中存在，则会因为 uniq -u排除掉

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/94384/viewspace-600309/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/94384/viewspace-600309/

congchenjin2969

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。