查找文本记录在另一个文本中是否出现

【问题】
Oh man. 15k line text file, a for loop grepping for instances of each line in a second file of millions of lines and returning count. at 5-6 seconds per line.

Should have run this in a screen…

【回答】
grep 命令的性能较低,如果其中一个文件较大,花费的时间肯定会很长,这种情况下可以试试集算器。比如 file1.txt 很大,无法放入内存,file2.txt 较小,可以放入内存,如果要查出在 file1.txt 但不在 file2.txt 中的行数据,可以用下面的 SPL 代码:

A
1=file("e:\\file1.txt").cursor()
2=file("e:\\file2.txt").import().keys(_1).index()
3=A1.select(!A2.find(~._1))
4=file("E:\\result.txt").export(A3)

几百万行的数据其实并不大,应该可以放入内存计算,集算器支持丰富的内存计算函数,比如关联计算、多文件查询、归并查找,可以轻松实现复杂的算法逻辑。想要了解更多关于集算器的使用,可参考集算器教程做进一步学习。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值