大数据算法＜一＞：hash函数分流 +文件建堆实现

最新推荐文章于 2023-03-27 21:38:29 发布

天下一般

最新推荐文章于 2023-03-27 21:38:29 发布

阅读量910

点赞数

分类专栏：大数据文章标签：哈希算法算法

本文链接：https://blog.csdn.net/fuzekun/article/details/124636983

版权

大数据专栏收录该内容

4 篇文章 4 订阅

订阅专栏

该博客讨论了如何在海量数据（如100亿条URL）中进行计数和统计前N个最常见的元素。文章提出了使用布隆过滤器和哈希函数进行数据分流，通过文件存储和堆数据结构来实现高效统计。在内存有限的情况下，通过磁盘存储和读取优化（如败者树）来减少磁盘操作。最后，提供了测试代码展示了整个流程。

摘要由CSDN通过智能技术生成

今天看左神讲的这个题目

首先考虑如何计数，也就是每一个url出现了多少次呢？

使用布隆过滤。（还没学）
使用hash函数进行分流，将相同的hash值取模的url放到同一个文件中。
1. 每一个url对应一个字符串hash。
2. 这个字符串hash对一个数取模
3. 那么这样同一种url就会进入一个文件中去。

第二个问题,统计前100:

先把100亿条数据使用hash函数进行分流，划分成不同文件。
然后对于每一个文件建堆：
1. 进行一个hashMap的统计，url作为key, 词频作为value。
2. 按照value进行排序。
3. 把排好的内容放入磁盘中。
最后进行统计：
1. 首先进行建堆：从每个文件中读取第一条数据，然后将他们从文件中删除，把<文件名，文件数据> 存入大根堆中。
2. 然后在cnt < N 且堆不空时：
  1. 堆顶加入答案。
  2. 堆顶对应的文件，如果不空，读取第一条数据加入堆，并且删除第一条数据。
3. 知道满足统计了N条，或者堆为空(没有这么多种的url)的时候返回统计的答案。

这里记录下一些其他问题

文件统计之后是放在磁盘中，还是存储在内存中呢？
- 放在磁盘中，因为建立就算统计完成之后，url的数量依旧很多，可能到达10亿条。
如何更少的读取磁盘？
- 败者树(还没学)

详细代码请转到

在这里插入图片描述

这里写一下测试类与结果

package leetcode.categories.bigData;

import javafx.util.Pair;

import java.util.*;

public class Main {

    public static void main(String[] args) {

        // 划分文件，得到划分好的文件
        Division div = new Division();
        HashMap<String, List<String>>files = div.divInM();

        // 为每个文件建立堆
        BigHeap bg = new BigHeap(files);
        // 在内存中建立每一个文件的heap
        HashMap<String, Queue> mp = new HashMap<>();
        for (String file : files.keySet()) {
            Queue que = bg.build(file);
            mp.put(file, que);
        }
        // 进行统计
        CountTopN cnt = new CountTopN(3);
        List<Pair<String, Integer>> ans = cnt.workInMemory(mp);
        for (Pair<String, Integer> p : ans) {
            System.out.println(p.getKey() + " " + p.getValue());
        }
    }
}