大数据算法<一>:hash函数分流 +文件建堆实现

今天看左神讲的这个题目

image-20220507150450433

首先考虑如何计数,也就是每一个url出现了多少次呢?

  1. 使用布隆过滤。(还没学)
  2. 使用hash函数进行分流,将相同的hash值取模的url放到同一个文件中。
    1. 每一个url对应一个字符串hash。
    2. 这个字符串hash对一个数取模
    3. 那么这样同一种url就会进入一个文件中去。

第二个问题,统计前100:

  1. 先把100亿条数据使用hash函数进行分流,划分成不同文件。
  2. 然后对于每一个文件建堆:
    1. 进行一个hashMap的统计,url作为key, 词频作为value。
    2. 按照value进行排序。
    3. 把排好的内容放入磁盘中。
  3. 最后进行统计:
    1. 首先进行建堆:从每个文件中读取第一条数据,然后将他们从文件中删除,把<文件名,文件数据> 存入大根堆中。
    2. 然后在cnt < N 且 堆不空时:
      1. 堆顶加入答案。
      2. 堆顶对应的文件,如果不空,读取第一条数据加入堆,并且删除第一条数据。
    3. 知道满足统计了N条,或者堆为空(没有这么多种的url)的时候返回统计的答案。

这里记录下一些其他问题

  1. 文件统计之后是放在磁盘中,还是存储在内存中呢?
    • 放在磁盘中,因为建立就算统计完成之后,url的数量依旧很多,可能到达10亿条。
  2. 如何更少的读取磁盘?
    • 败者树(还没学)

详细代码请转到

在这里插入图片描述

这里写一下测试类与结果

package leetcode.categories.bigData;

import javafx.util.Pair;

import java.util.*;

public class Main {

    public static void main(String[] args) {

        // 划分文件,得到划分好的文件
        Division div = new Division();
        HashMap<String, List<String>>files = div.divInM();

        // 为每个文件建立堆
        BigHeap bg = new BigHeap(files);
        // 在内存中建立每一个文件的heap
        HashMap<String, Queue> mp = new HashMap<>();
        for (String file : files.keySet()) {
            Queue que = bg.build(file);
            mp.put(file, que);
        }
        // 进行统计
        CountTopN cnt = new CountTopN(3);
        List<Pair<String, Integer>> ans = cnt.workInMemory(mp);
        for (Pair<String, Integer> p : ans) {
            System.out.println(p.getKey() + " " + p.getValue());
        }
    }
}

获取前三名

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这个错误是因为编译器无法确定 `std::hash<std::string>::operator()` 函数的返回值是否是编译期常量,因此不能在 `constexpr` 上下文中使用该函数。 解决方法是使用 `constexpr` 关键字显式地声明 `std::hash<std::string>::operator()` 函数是一个 `constexpr` 函数。示例代码如下: ```c++ #include <iostream> #include <functional> #include <string> using namespace std; // 显式声明 std::hash<std::string>::operator() 是一个 constexpr 函数 namespace std { template<> struct hash<string> { constexpr size_t operator()(const string& str) const { return std::_Hash_impl::hash(str.data(), str.length()); } }; } int main() { unordered_map<size_t, string> map = { {hash<string>()("hello"), "Hello World!"}, {hash<string>()("world"), "World Hello!"}, {hash<string>()("good"), "Good Morning!"}, {hash<string>()("night"), "Good Night!"} }; string str; cout << "Please enter a string: "; getline(cin, str); switch (hash<string>()(str)) { case hash<string>()("hello"): cout << map[hash<string>()("hello")] << endl; break; case hash<string>()("world"): cout << map[hash<string>()("world")] << endl; break; case hash<string>()("good"): cout << map[hash<string>()("good")] << endl; break; case hash<string>()("night"): cout << map[hash<string>()("night")] << endl; break; default: cout << "Unknown input!" << endl; break; } return 0; } ``` 在上面的代码中,我们显式声明了 `std::hash<std::string>::operator()` 函数是一个 `constexpr` 函数,编译器就可以确定该函数的返回值是编译期常量,从而避免了上述编译错误。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值