clickhouse之bitmap

1. bitmap知多少

bitmap(位图)是一种利用比特位来进行数据存储的结构,简单举例:存储1-8的整数,如果我们用整数数组的话,至少需要4(1个int型整数按4字节)*8=32个比特的存储空间,但是如果用bitmap的话,我们只需要1个字节(8bit),从低位到高位,每一位是否为1即可表示该数是否存在。显然,使用bitmap能够显著节省用户存储空间,但也有一些局限性:

  • 存储的数据不能过于稀疏,比如只有1和10000两个数,那也需要10000/8=1250个字节
  • 数据中不能出现重复,因为每一位只有0和1,只能表示该数存在或不存在

正因为上述特性,经常有一些面试中会考到bitmap的使用:

  • 给你40亿个不重复的整数,判断其中是否存在某个给定的整数,但是只有1G的内存
  • 10亿个整数中出现重复的整数个数
  • 10亿个数中只有1位为空,找出为空的那个数?内存只有几十兆的情况下怎么处理?

…诸如此类的各种变体,总有一款难住你,哈哈~~

和bitmap原理类似的还有更复杂一点儿的布隆过滤器(BloomFilter)。

2. clickhouse中的bitmap

bitmap在clickhouse中是一种AggregateFunction的数据类型,其构造方法有两种:

  1. 通过聚合函数groupBitmap来构造
  2. 通过对整形数组进行转换得到

2.1 bitmap与array类型的转换

  • bitmapBuild:将array转换为bitmap
select bitmapBuild([1,2,3,4,5]) as res, toTypeName(res);

在这里插入图片描述

  • bitmapToArray:将bitmap转为array
select bitmapToArray(bitmapBuild([1,2,3,4,5])) as res, toTypeName(res);

在这里插入图片描述

2.2 bitmap获取属性的函数

clickhouse提供了一系列函数来获取bitmap的属性,比如最大值、最小值、基数等。

2.3 bitmap集合运算

clickhouse同样提供了一系列函数来进行bitmap之间的集合运算,包括并集、交集、差集、补集等。
具体使用可查阅官方文档:bitmap函数

3. clickhouse+bitmap的使用场景

3.1 用户画像

  • 存储结构:按标签+用户ID列表的方式来进行存储,其中用户ID列表使用bitmap类型来节省存储空间。
  • 使用方法:通过标签可以快速找到相关人群进行推荐;对于多个标签查找共性用户的需求,可以通过bitmap集合运算函数来快速得到。
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

普普通通程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值