大文本文件（接近7GB）: 统计频数，Top K问题求解

最新推荐文章于 2024-07-01 11:55:59 发布

master-dragon

最新推荐文章于 2024-07-01 11:55:59 发布

阅读量3.9k

点赞数

分类专栏： # 大数据相关 hadoop/hive/hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26437925/article/details/78531179

版权

本文介绍如何在资源有限的环境下，利用分治策略解决大文本文件中的IP频数统计和TopK问题。通过将大文件拆分为小文件，分别统计并结合堆或哈希等数据结构找出最高频IP。文中提供Java源代码，适用于大一、大二学生学习，强调理解分治思想和基础数据结构的重要性。

摘要由CSDN通过智能技术生成

目录

本文说明

本来转自这个地址(http://blog.csdn.net/dbt666666/article/details/16974415)的博文, 不过太差了，遂自己实现一把真正的topK问题，网上的文章只作为本文的参考。因为很早写的，当时在windows上实践的，不过应当实现有点问题，确实也不是真正的TopK求解。鉴于本文截止2020-05-01的阅读量已经很多了，所以本文标题就不改了；2020-05-01（今天）重新实践下，并重写本文，并标记本文为原创。

请按照目录阅读，要明白我们的问题，我们怎么求解，我们怎么输出，这里先不考虑大数据方案，就单纯的一个能让大一，大二同学就能直接实践并且能够学到知识

问题

你只有一个2C4G的机器（即内存是有限的）

然后很简单的一个问题：一个6G的txt文件，每一行都出现了一个IP，要统计这其中出现频次最高的IP，返回出现TopK的IP，输出如下

<topCnt1, Ip1>
<topCnt2, Ip1>
...
<topCntK, IpK>

TopK单机思路（分治）

分治思想应该是容易想到的，如果读大二还不知道，那么赶快去学习
在这里插入图片描述

具体实践

步骤 1：每行一个IP：超过内存的大文件

程序模拟产生了一个1G行，每行一个[0，100000]区间的整数

在这里插入图片描述

步骤2：分治求解：

2.1 大文件分成小文件

这里根据IP Hash 到 1024个小文件中，显然有：

在单个文件中，topK的才是最终整体有可能的topK（一个文件中可能出现相同次数的，也要考虑进来）；非topK的直接抛弃即可

*注意：我们是普通的Hash,不过数据还是相对均匀的，所以每个小文件确实是挺小的；考虑现实中数据极端情况，可能出现分治分不了,业即：大数据常见的数据倾斜问题（这里引入下，不做过多说明）

2.2 小文件统计，并最后统计

对每个小文件，可以用堆，hash，内部排序等等方法进行处理；

2.3 小文件的统计结果再做一次统计求出出现频数最高的那个数

步骤3: 程序输出

结果如下：第一

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
大文本文件（接近7GB）: 统计频数，Top K问题求解

实践如下:产生了一个1G行，每行一个[0，100000]区间的整数top n 求解：大文件分成小文件把这个7G左右的大文件，按照读入数字的hashcode值分成1024个小文件(每个文件平均最大就7M左右)小文件统计对每个小文件，可以用堆，hash，内部排序等等方法进行处理；
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。