论__大量文本内容去重的方式

论__大量文本内容去重的方式


本文由 Luzhuo 编写,请尊重个人劳动成果,转发请保留该信息.
原文: http://blog.csdn.net/Rozol/article/details/50640179
微博: http://weibo.com/u/2524456400


最近拿到大量的文本文件,文件的大小少个几十M,多则几十G,这么多且大的文本想必有很多的文本是重复的,于是相对它进行去重.
想出了第一种方案,没想到内存很快就被撑爆了,于是想出了第二种方案,不过那个效率,不好意思说了.
网上说的根据哈希码和文本长度对文本进行快速去重的方案一点都不靠谱,因为哈希码和长度一样的文本内容实在是太多了.

结论

  • 第一种方案速度比第一种方案快,但是对内存要求高,而且顺序可能会乱掉.适合于数据量小的时候使用,不需要数据库,使用简单.
  • 第二种方案速度非常慢,不过对内存要求不高,可以放在云端处理,适合数据量大的时候使用^-^.

方案一

  • 使用这种方案的结果将会是这样的(完全就是拼内存),于是就想出了方案二

方案二

GitHub Code

代码寄托在Github上,有兴趣的可以去看看.
代码: https://github.com/LZLuzhuo/QuickClearRepeat
另外我想告诉你用 哈希码和长度 有多不靠谱.文件也存在Github上.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值