自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 《数据仓库实践》

序言 2017 年初,我开始在简书上写关于数据仓库的系列博客,博客主题围绕大数据场景下数据仓库的理论和实践来展开,截止现在已有十篇左右。最初写作的时候主要是抱着学习和总结的态度,导致很多地方略显粗糙和不严谨,加上这一系列的博客也收到了不少读者朋友的反馈,我就有了重新整理一遍该系列的想法。因此,17 年底,开始利用周末的时间开始对之前的一些博客进行重写,并补齐一些之前没有提到的知识点,将之前的一系

2017-11-27 19:02:49 3173 1

原创 No.20 不深入而浅出 Roaring Bitmaps 的基本原理

0x00 前言位图索引被广泛用于数据库和搜索引擎中,通过利用位级并行,它们可以显著加快查询速度。但是,位图索引会占用大量的内存,因此我们会更喜欢压缩位图索引。 Roaring Bitmaps 就是一种十分优秀的压缩位图索引,后文统称 RBM。压缩位图索引有很多种,比如基于 RLE(Run-Length Encoding,运行长度编码)的WAH (Word Aligned Hybrid Compre

2017-11-04 20:52:52 5692 1

原创 No.19 Counting Bloom Filter 的原理和实现

0x00 前言标准的 Bloom Filter 是一种比较简单的数据结构,只支持插入和查找两种操作。在所要表达的集合是静态集合的时候,标准 Bloom Filter 可以很好地工作,但是如果要表达的集合经常变动,标准Bloom Filter的弊端就显现出来了,因为它不支持删除操作。这就引出来了本文要谈的 Counting Bloom Filter,后文简写为 CBF。0x01 原理一、BF 为什么不

2017-11-04 20:50:38 1696

原创 No.17【大数据算法】Bloom Filter 的数学背景

0x00 前言 程序员应该无所畏惧,所以,一起来推导数学公式吧! 上文我们分享了 Bloom Filter 的基本原理和代码实现,在文章的结尾提到了 BF 的误判率以及几个重要参数的选取,我们只给出了最后的公式,而没有具体的推导过程。 这是会被狠狠地挑战的,本着追根刨底的精神,我们推导一下 BF 相关的数学公式。文章结构本文会分享关于 BF 的三个知识点: 错误率公式的推导 最佳哈希函数个数的推

2017-11-04 20:48:46 637

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除