Cassandra 2.X 内置二级索引浅析
Cassandra内置二级索引
Cassandra系统内置两种二级索引,分别是KeysIndex和CompositesIndex。
Cassandra源代码中与二级索引密切相关的包有
org.apache.cassandra.db.index
org.apache.cassandra.db.index.keys
org.apache.cassandra.db.index.composites
第一个包的文件为二级索引相关组件的实现,以及对二级索引基本方法的定义
后两个包的文件对应着KeysIndex和CompositesIndex的具体实现
KeysIndex为一种倒排索引的实现,下面主要对其实现进行分析
KeysIndex的存储方式
在Cassandra中,数据都是以Key-value的形式保存的。
KeysIndex所创建的二级索引也被保存在一张ColumnFamily中。在插入数据时,对需要进行索引的value进行摘要,生成独一无二的key,将其作为RowKey保存在索引的ColumnFamily中;同时在RowKey上添加一个Column,将插入数据的RowKey作为name域的值,value域则赋空值,timestamp域则赋为插入数据的时间戳。
如果有相同的value被索引了,则会在索引ColumnFamily中相同的RowKey后再添加新的Column。如果有新的value被索引,则会在索引ColumnFamily中添加新的RowKey以及对应新的Column。
当对value进行查询时,只需计算该value的RowKey,在索引ColumnFamily中的查找该RowKey,对其Columns进行遍历就能得到该value所有数据的RowKey。
KeysIndex的插入和查询过程
插入过程请参考
insert(ByteBuffer, Cell, Group) : void - org.apache.cassandra.db.index.AbstractSimplePerColumnSecondaryIndex
方法。
大致过程为计算索引的RowKey,生成Column容器,添加Column内容,在写入到索引的ColumnFamily中。
查询过程请参考search(ExtendedFilter) : List<Row> - org.apache.cassandra.db.index.keys.KeysSearcher
方法。
大致过程为根据查询条件,计算查询value的RowKey,到二级索引ColumnFamily中查找,返回源数据的RowKey,构造查询结果迭代器,返回查询结果List。
注意:在Cassandra 2.X的源代码中,ColumnFamily、RowKey、Columns分别对应了源代码中的ColumnFamilyStore、DecoratedKey、ColumnFamily,Column对应了Column或者是Cell
参考文献
[1] https://pkghosh.wordpress.com/2011/03/02/cassandra-secondary-index-patterns/