skr
晨初听雨
这个作者很懒,什么都没留下…
展开
-
布隆过滤器(Bloom Filter)详解
一、什么是布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”。 相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。 二、实现原理 HashMap 的问题 讲述布隆...原创 2019-07-07 16:40:11 · 304 阅读 · 0 评论 -
海量数据处理问题
海量数据问题总结 1、给一个超过100G大小的log file,log中存着IP地址,设计算法找到出现次数最多的IP地址。如何找到top K的IP 这样的问题如果出现在数据量较小的情形下,用一个map或者unordered_map都能很快的处理,但是100G这样的量级放在一个map里是绝对不可行的。因此,我们采用哈希切分。 什么是哈希切分? 100G文件我们无法处理,是1G...原创 2019-07-01 15:36:59 · 137 阅读 · 0 评论