- 博客(4)
- 收藏
- 关注
原创 《数据仓库实践》
序言 2017 年初,我开始在简书上写关于数据仓库的系列博客,博客主题围绕大数据场景下数据仓库的理论和实践来展开,截止现在已有十篇左右。最初写作的时候主要是抱着学习和总结的态度,导致很多地方略显粗糙和不严谨,加上这一系列的博客也收到了不少读者朋友的反馈,我就有了重新整理一遍该系列的想法。因此,17 年底,开始利用周末的时间开始对之前的一些博客进行重写,并补齐一些之前没有提到的知识点,将之前的一系
2017-11-27 19:02:49 3173 1
原创 No.20 不深入而浅出 Roaring Bitmaps 的基本原理
0x00 前言位图索引被广泛用于数据库和搜索引擎中,通过利用位级并行,它们可以显著加快查询速度。但是,位图索引会占用大量的内存,因此我们会更喜欢压缩位图索引。 Roaring Bitmaps 就是一种十分优秀的压缩位图索引,后文统称 RBM。压缩位图索引有很多种,比如基于 RLE(Run-Length Encoding,运行长度编码)的WAH (Word Aligned Hybrid Compre
2017-11-04 20:52:52 5692 1
原创 No.19 Counting Bloom Filter 的原理和实现
0x00 前言标准的 Bloom Filter 是一种比较简单的数据结构,只支持插入和查找两种操作。在所要表达的集合是静态集合的时候,标准 Bloom Filter 可以很好地工作,但是如果要表达的集合经常变动,标准Bloom Filter的弊端就显现出来了,因为它不支持删除操作。这就引出来了本文要谈的 Counting Bloom Filter,后文简写为 CBF。0x01 原理一、BF 为什么不
2017-11-04 20:50:38 1696
原创 No.17【大数据算法】Bloom Filter 的数学背景
0x00 前言 程序员应该无所畏惧,所以,一起来推导数学公式吧! 上文我们分享了 Bloom Filter 的基本原理和代码实现,在文章的结尾提到了 BF 的误判率以及几个重要参数的选取,我们只给出了最后的公式,而没有具体的推导过程。 这是会被狠狠地挑战的,本着追根刨底的精神,我们推导一下 BF 相关的数学公式。文章结构本文会分享关于 BF 的三个知识点: 错误率公式的推导 最佳哈希函数个数的推
2017-11-04 20:48:46 637
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人