算法问题

nb_zhaoxiaozuo

于 2012-05-14 14:15:19 发布

阅读量111

点赞数

分类专栏： linus

linus 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今天碰到了一个问题：

有两个文本文件，一个有二百万的数据，一个有一百万的数据，我怎样求两个文本文件数据的交集呢？

1：我的思路首先是这样的，那少的数据（一百万的数据）逐个跟二百万的数据相比，相等的拿出来，然后我写了个小程序

跑了三个多小时，才出来五百多个。显然不能这样搞。

然后我们老大想了个算法，我真的很佩服：

1：首先把这两个数据去重，linus命令如下：uniq one.txt >one_uniq.txt, uniq two.txt>two_uniq.txt.

2: 然后把one_uniq.txt,two_uniq.txt放到一起取重复的，命令如下： cat one_uniq.txt two_uniq.txt|sort|uniq -d>result.txt

result.txt里的数据即为结果，一共花了不到五秒钟的时间，这就是差距啊。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算法问题

今天碰到了一个问题：有两个文本文件，一个有二百万的数据，一个有一百万的数据，我怎样求两个文本文件数据的交集呢？ 1：我的思路首先是这样的，那少的数据（一百万的数据）逐个跟二百万的数据相比，相等的拿出来，然后我写了个小程序跑了三个多小时，才出来五百多个。显然不能这样搞。然后我们老大想了个算法，我真的很佩服： 1：首先把这两个数据去重，linus命...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。