以列为导向的方式存储数据大大增加磁盘上相邻记录的相似性和用于压缩的机会。压缩许多相邻元组,可以同时降低每一元组成本和CPU和空间开销。本文讨论了如何用压缩子系统扩展C-Store(面向列的数据库系统)。我们展示了面向列的数据库系统的压缩方案。然后,我们评估一套压缩方案,并表明最佳方案不仅取决于数据的属性,而且取决于查询负载的性质。
列式数据库系统数据压缩特点
In summary, this paper shows that significant database performance gains can be had by implementing light-weight
compression schemes and operators that work directly on compressed data.
本文展示了 通过对压缩的数据进行轻量级的压缩方案和操作,将会使数据库获得良好的收益。根据一系列的基础属性,我们把压缩方案进行了归类,使我们能够直接扩展C-Store(面向列的数据库),而不用再针对每一组压缩方案添加额外的代码。此外,我们专注于列式存储的数据压缩,使我们证明了 列式存储的压缩后的数据 比 行式压缩后的数据 性能更好。