算法通关村第十五关 | 黄金 | 超大规模数据场景

1.对 20GB 文件进行排序

有一个 20GB 的文件,每行一个字符串,对其进行排序。

这里可以使用分块方式来排序,先将每块进行排序,然后要逐步进行合并,也叫做外部排序。

2.超大文本中搜索两个单词的最短距离

有一个超大的文本文件,内部由许多单词组成,现在给定两个单词,要找出两个单词在文件中的最小距离。

用两个下标来记录两个单词的位置,一次循环中就可以不断移动和比较下标位置,找到最短距离。

3.从 10 亿数字中寻找最小的 100 万个数字

先排序肯定会占用很大的内存空间。

这时可以采用大顶堆,先给前 100 万个数字创建一个大顶堆,最大元素位于堆顶。

只有比堆顶元素小的才可以插入堆中,并删除原来的最大元素。

最后剩下的就是最小的 100 万个数字。

如果将数据换成流数据,几乎只能用堆来做。

如果对您有帮助,请点赞关注支持我,谢谢! ❤
如有错误或者不足之处,敬请指正! ❤
个人主页:星不易
算法通关村专栏:不易|算法通关村

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值