- 博客(3)
- 收藏
- 关注
原创 海量数据处理问题
1.给定一个大小超过 100G 的文件, 其中存在 IP 地址, 找到其中出现次数最多的 IP 地址(hash文件切分) 思路:显然我们是不可能将这100G内存直接加载到内存中取处理的。所以我们可以对大文件进行划分,前提当然是相同IP地址会被划分在一块。假定我们将这个文件分为1024份,那么一个文件的大小大概为100M,然后利用哈希算法对IP地址进行映射,得到的值%1024,将同一个IP地址映...
2018-06-07 10:48:17 169
原创 数据结构 ---- 布隆过滤器
基本概念 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表、树等等数据结构都是这种思路,但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢,不过还有一种叫哈希表的数据结构,它可以通过Hash函数将一个元素映射成一个位阵列中的一个点,这样一来,我们只要看看这个点是不是1就知道集合中有没有它了,这就是布隆过滤器的思想。Hash面临...
2018-06-06 17:09:26 244
原创 数据结构 ---- 位图的基本操作
首先位图结构体中有两个参数,一个指针用来开辟一段空间存储Bit位,还有一个参数是capacity即位图最多能容纳多少位; 实现代码如下: bitmap.h#pragma once #include <...
2018-06-06 15:18:01 247
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人