经典算法-海量数据处理算法（top K问题）

最新推荐文章于 2022-07-23 15:55:34 发布

weixin_34175509

最新推荐文章于 2022-07-23 15:55:34 发布

阅读量123

点赞数

原文链接：https://juejin.im/post/584971402f301e0057196672

版权

举例

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

思路

首先把文件分开
针对每个文件hash遍历，统计每个词语的频率
使用堆进行遍历
把堆归并起来

具体的方案

1.分治：顺序读文件中，对于每个词c，取hash(c)%2000，然后按照该值存到2000个小文件中。这样每个文件大概是500k左右。

注意：

如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。

2.hash遍历：对每个小文件，用hash的方式统计每个文件中出现的词以及相应的频率

3.堆遍历：用最小堆取出出现频率最大的100个词，并把100个词及相应的频率存入文件，这样又得到了5000个文件。

4.归并整合

下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

weixin_34175509

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_34175509 CSDN认证博客专家 CSDN认证企业博客

码龄9年

144: 原创

-: 周排名

164万+: 总排名

128万+: 访问

: 等级

7132: 积分

4941: 粉丝

237: 获赞

15: 评论

1261: 收藏

私信

关注

热门文章

最新评论

element-ui更换主题和按需引入组件
tianjunguoguoguo: 搭配babel-plugin-component,使用element-variables.scss重新定义主题颜色不生效 element-variables.scss为新建的文件和.babelr里的styleLibraryName如何对应，你是直接新建element-variables.scss主题色就变了？
Javascript中的Form表单知识点总结
会画大饼的灰灰: 好长
以太坊Dapp项目-拍卖网站-智能合约编写测试
栀虞呀: 我进行揭标的时候报交易失败hijackedStack: 'StatusError: Transaction: 0xa850dd68d29a3ffd34529a709fc223d01e27586a10c985173bd538f22d7c2e4f exited with an error (status 0). \n' + ' Please check that the transaction:\n' + ' - satisfies all conditions set by Solidity `require` statements.\n' + ' - does not trigger a Solidity `revert` statement.\n' + '\n' + ' at Object.receipt (/usr/local/lib/node_modules/truffle/build/webpack:/packages/contract/lib/handlers.js:128:1)\n' + ' at runMicrotasks (<anonymous>)\n' + ' at processTicksAndRejections (node:internal/process/task_queues:96:5)\n' + ' at Function.start (/usr/local/lib/node_modules/truffle/build/webpack:/packages/contract/lib/override.js:49:1)'
JeeSite4.x 搭建并部署到服务器
fj3k2: 导入数据库有大坑，用的dbunit mysql还要指定shema 并且插入时大小写有问题
5分钟搞懂什么是深度学习
Tisfy: 这让我想起了先贤的一句话：十五入汉宫，花颜笑春红。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。