LSM-tree 一种高效的索引数据结构

转载 2016年05月30日 20:48:31

 

论文 The Log-Structure Merge-Tree(LSM-tree)(http://www.google.com.my/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&ved=0CDoQFjAD&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.44.2782%26rep%3Drep1%26type%3Dpdf&ei=6OlPUJuZFsaYiAfIkIHIDg&usg=AFQjCNGGoN9IFTLShcv2HbL0RVQdElfxow&sig2=8wysS63qlqRvWf5m3lk7bg) 描述了这种数据结构的目标和算法细节。

 

LSM-tree主要目标是快速地建立索引。B-tree是建立索引的通用技术,但是,在大并发插入数据的情况下,B-tree需要大量的磁盘随机IO,很显然,大量的磁盘随机IO会严重影响索引建立的速度。特别地,对于那些索引数据大的情况(例如,两个列的联合索引),插入速度是对性能影响的重要指标,而读取相对来说就比较少。LSM-tree通过磁盘的顺序写,来达到最优的写性能,因为这会大大降低磁盘的寻道次数,一次磁盘IO可以写入多个索引块。

 

LSM-tree的主要思想是划分不同等级的树。以两级树为例,可以想象一份索引数据由两个树组成,一棵树存在于内存,一棵树存在于磁盘。内存中的树可以不一定是B-树,可以是其他的树,例如AVL树。因为数据大小是不同的,没必要牺牲CPU来达到最小的树高度。而存在于磁盘的树是一棵B-树。

 

 

数据首先会插入到内存中的树。当内存中的树中的数据超过一定阈值时,会进行合并操作。合并操作会从左至右遍历内存中的树的叶子节点与磁盘中的树的叶子节点进行合并,当被合并的数据量达到磁盘的存储页的大小时,会将合并后的数据持久化到磁盘,同时更新父亲节点对叶子节点的指针。

 

 

之前存在于磁盘的叶子节点被合并后,旧的数据并不会被删除,这些数据会拷贝一份和内存中的数据一起顺序写到磁盘。这会操作一些空间的浪费,但是,LSM-tree提供了一些机制来回收这些空间。

 

磁盘中的树的非叶子节点数据也被缓存在内存中。

 

数据查找会首先查找内存中树,如果没有查到结果,会转而查找磁盘中的树。

 

有一个很显然的问题是,如果数据量过于庞大,磁盘中的树相应地也会很大,导致的后果是合并的速度会变慢。一个解决方法是建立各个层次的树,低层次的树都比上一层次的树数据集大。假设内存中的树为c0, 磁盘中的树按照层次一次为c1, c2, c3, ... ck-1, ck。合并的顺序是(c0, c1), (c1, c2)...(ck-1, ck)。

 

为什么LSM-tree的插入很快

 

1. 首先,插入操作首先会作用于内存,并且,内存中的树不会很大,这会很快。

2. 合并操作会顺序写入一个或多个磁盘页,这比随机写快得多。

 

转自:http://bofang.iteye.com/blog/1676698

 

相关文章推荐

LSM-tree 一种高效的索引数据结构

转自: 论文 The Log-Structure Merge-Tree(LSM-tree)(http://www.google.com.my/url?sa=t&rct=j&q=&esrc=s&s...
  • guo_net
  • guo_net
  • 2014年11月12日 10:59
  • 526

XR-Tree数据索引—高效结构查询

  • 2012年03月21日 21:13
  • 305KB
  • 下载

【数据结构】高效双向链表list、树tree(二叉树)

vi正常模式下: "shift + g" 跳到最后一行 "gg" 跳到第一行 /*代码*/ 01link.c #include #include "01link.h" //链表初始化 void...

MySQL索引背后的数据结构及BTree B+Tree算法原理

摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如B...

一种高效的倒排索引存储结构.pdf

  • 2012年06月29日 14:54
  • 853KB
  • 下载

MySQL索引使用的数据结构:B-Tree和B+Tree

MyISAM是MySQL 5.5之前版本默认的存储引擎,从5.5之后,InnoDB开始成为MySQL默认的存储引擎。 MyISAM使用B-Tree实现主键索引、唯一索引和非主键索引。 InnoDB...

索引基础——B-Tree、B+Tree、红黑树、B*Tree数据结构

B树(B-Tree,并不是B“减”树,横杠为连接符,容易被误导)        是一种多路搜索树(并不是二叉的):        1.定义任意非叶子结点最多只有M个儿子;且M>2; ...

数据结构common tree

  • 2015年11月30日 23:30
  • 216KB
  • 下载

数据结构binary tree

  • 2015年11月30日 23:35
  • 4KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:LSM-tree 一种高效的索引数据结构
举报原因:
原因补充:

(最多只允许输入30个字)