大数据
文章平均质量分 88
JaykeLin
这个作者很懒,什么都没留下…
展开
-
大数据处理--BloomFilter
BloomFilter——大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间...原创 2014-06-28 10:58:54 · 118 阅读 · 0 评论 -
大数据处理--BitSet
java.util.BitSet可以按位存储。计算机中一个字节(byte)占8位(bit),我们java中数据至少按字节存储的,比如一个int占4个字节。如果遇到大的数据量,这样必然会需要很大存储空间和内存。如何减少数据占用存储空间和内存可以用算法解决。java.util.BitSet就提供了这样的算法。比如有一堆数字,需要存储,source=[3,5,6,9]用int就需要4*4个字节。jav...原创 2014-06-28 11:01:37 · 232 阅读 · 0 评论 -
大数据处理--倒排索引
简介 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。 用途 倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等...原创 2014-06-28 14:08:26 · 470 阅读 · 0 评论