大文本文件(接近7GB): 统计频数,Top K问题求解

本文介绍如何在资源有限的环境下,利用分治策略解决大文本文件中的IP频数统计和TopK问题。通过将大文件拆分为小文件,分别统计并结合堆或哈希等数据结构找出最高频IP。文中提供Java源代码,适用于大一、大二学生学习,强调理解分治思想和基础数据结构的重要性。
摘要由CSDN通过智能技术生成

本文说明

本来转自这个地址(http://blog.csdn.net/dbt666666/article/details/16974415)的博文, 不过太差了,遂自己实现一把真正的topK问题,网上的文章只作为本文的参考。因为很早写的,当时在windows上实践的,不过应当实现有点问题,确实也不是真正的TopK求解。鉴于本文截止2020-05-01的阅读量已经很多了,所以本文标题就不改了;2020-05-01(今天)重新实践下,并重写本文,并标记本文为原创

请按照目录阅读,要明白我们的问题,我们怎么求解,我们怎么输出,这里先不考虑大数据方案,就单纯的一个能让大一,大二同学就能直接实践并且能够学到知识

问题

你只有一个2C4G的机器(即内存是有限的)

然后很简单的一个问题: 一个6G的txt文件,每一行都出现了一个IP,要统计这其中出现频次最高的IP,返回出现TopK的IP,输出如下

<topCnt1, Ip1>
<topCnt2, Ip1>
...
<topCntK, IpK>

TopK单机思路(分治)

分治思想应该是容易想到的,如果读大二还不知道,那么赶快去学习
在这里插入图片描述

具体实践

步骤 1:每行一个IP:超过内存的大文件

程序模拟产生了一个1G行,每行一个[0,100000]区间的整数

在这里插入图片描述

步骤2: 分治求解:
2.1 大文件分成小文件

这里根据IP Hash 到 1024个小文件中,显然有:

在单个文件中,topK的才是最终整体有可能的topK(一个文件中可能出现相同次数的,也要考虑进来);非topK的直接抛弃即可

*注意: 我们是普通的Hash,不过数据还是相对均匀的,所以每个小文件确实是挺小的;考虑现实中数据极端情况,可能出现分治分不了,业即:大数据常见的数据倾斜问题(这里引入下,不做过多说明)

2.2 小文件统计,并最后统计

对每个小文件,可以用堆,hash,内部排序等等方法进行处理;

2.3 小文件的统计结果 再做一次统计 求出出现频数最高的那个数

步骤3: 程序输出

结果如下: 第一

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值