大数据
文章平均质量分 80
天涯-晴天
这个作者很懒,什么都没留下…
展开
-
大数据问题常用的解决技巧
大数据处理无非面临的问题 数据量大,内存有限、处理效率的要求。处理大数据核心思想是:(1)大而化小分而治之(2)降低精确度提高效率(3)问题步骤分解并行处理-----类似于CUP流水线常处理的问题:(1)大数据集合查找TOP K问题。(2)大数据集合去重问题。(3)大数据集合求交集问题。(4)大数据集合求元素频率问题。解决问题的方法:问题实例:一. 设计算法找到每日访问百度出现次数最多的10...原创 2018-06-08 14:53:48 · 2419 阅读 · 0 评论 -
大数据去重——位图
100亿整型数据去重?整型数据为32位最多有2^32(42亿多),所以100亿整型数据一定有重复的,2^32个整形用位表示,需要(2^32)bit==512MB,需要512MB内存表示。下面是去重算法:#include <stdio.h>#include <stdlib.h>#define MAX (0xffffffff)void setBuf(char *buf...原创 2018-06-08 15:00:32 · 2681 阅读 · 5 评论 -
Bloom-Filter的基本思想
Bloom-Filter的基本思想Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员。如果检测结果为是,该元素不一定在集合中;但如果检测结果为否,该元素一定不在集合中。因此Bloom filter具有100%的召回率。这样每个检测请求返回有“在集合内(可能错误)”和“不在集合内(...原创 2018-06-08 16:23:15 · 572 阅读 · 2 评论