clickhouse在处理数据时按照block为单位进行压缩,之后写入磁盘数据文件中。这样可以减少数据量的大小减少磁盘io时间。但是,如果没有索引,则意味着每次查询时都需要读取所有的数据,即使通过压缩已经降低了6.2倍的数据量,这依然要花费很多的磁盘IO。此时索引就出现了,可以再次帮助我们减少查询时需要读取的数据量。
在介绍clickhouse的索引之前,我们先回顾一下关系型数据库MySQL中常用的索引技术——B+树。B+树算法超出本文内容,在这里不做深入讨论,我们主要分析下MySQL使用B+树的目的和B+树的本质。其实,B+树本质是一颗N叉树,其叶子节点就是有序排列的索引值,因此在查询时可以根据这棵树快速定位到数据所在,而且由于其有序,可以适应范围查找。下图展示了一颗B+树。
B+树示意图
了解了B+树的本质之后,读者可以试着回答一个问题:clickhouse是否有必要使用B+树进行索引?为什么?
如果您的答案是不需要,那么说明您已经对clickhouse和MySQL存储引擎都了解地比较深入了。如果您的答案是需要或者不确定,那么也不用着急,下面就会详细说明原因。
这个问题的答案就是不需要,原因在于clickhouse的存储引擎和MySQL的存储引擎设计上的不同。MySQL由于要支持事务,使用MVCC的事务控制机制,因此会出现一个问题:数据的插入顺序和索引的排