海量数据
带你去网吧里偷耳机
这个作者很懒,什么都没留下…
展开
-
海量数据案例
海量数据处理面试题集锦_结构之法 算法之道-CSDN博客_海量数据面试题原创 2021-09-29 22:13:28 · 92 阅读 · 0 评论 -
布隆过滤器
优缺点:详解布隆过滤器的原理、优缺点_z7436-CSDN博客_布隆过滤器的缺点原创 2020-03-06 17:18:53 · 123 阅读 · 0 评论 -
蓄水池抽样
转载 2020-03-06 17:01:25 · 103 阅读 · 0 评论 -
C++读写txt文件/C++生成随机数/C++记录程序运行时间
一 C++读写txt文件写入txt文件:参考博客逐行读取txt文件: ifstream in; in.open("sample.txt", ios::in); if (!in.is_open()) return 0; string strLine; double data; ResultSet resultset; while(getline(in,strLine...原创 2019-11-27 10:36:33 · 636 阅读 · 0 评论 -
直通BAT-大数据
哈希函数Map-Reduce案例1一用map-reduce方法统计一篇文章中每个单词出现的个数海量数据的常见处理技巧案例二请对10亿个IPV4的ip地址进行排序,每个ip只会出现一次考虑到IPV4的ip地址最多约等于42亿,而题目中也说是10亿。我们知道无符号整数的最大值是42亿+(接近43亿)因此,我们可以考虑把ip地址(32位)转...原创 2019-03-03 20:56:40 · 294 阅读 · 0 评论 -
海量数据找中位数
法一原博客链接思路如下:从10亿个数据(int型占据4B)中找中位数,内存限制为1GB。不可能一次性把数据全部加载到内存中,再使用快速排序算法,因为10亿*4B大约为4GB,内存不够。可以一次性读入1GB的数据(分10次读取),然后对读入的1GB数据按照最高位即第32位的值进行分类并写入文件,如果最高位是1,写入file1,否则写入file2。那么file1全是负数,file2...原创 2019-03-20 22:42:05 · 1439 阅读 · 0 评论 -
哈希分治
哈希分治对于海量数据而言,由于无法一次性装进内存处理,不得不把海量的数据通过 hash 映射的方法分割成相应的小块数据,然后再针对各个小块数据通过 hash_map 进行统计或其他操作。那什么是 hash 映射呢?简单来说,就是为了便于计算机在有限的内存中处理大数据,我们通过一种映射散列的方式让数据均匀分布在对应的内存位置(如大数据通过取余的方式映射成小数据存放在内存中,或大文件映射成多个...原创 2019-03-21 10:04:45 · 623 阅读 · 0 评论