列式数据库

最新推荐文章于 2024-02-03 07:33:39 发布

skyleung

最新推荐文章于 2024-02-03 07:33:39 发布

阅读量773

点赞数

文章标签：数据库数据存储

定义

列式数据库是以列相关存储架构进行数据存储的数据库，主要适合于批量数据处理和即席查询。相对应的是行式数据库，数据以行相关的存储体系架构进行空间分配，主要适合于小批量的数据处理，常用于联机事务型数据处理。

描述

数据库以行、列的二维表的形式存储数据，但是却以一维字符串的方式存储，例如以下的一个表：

EmpId	Lastname	Firstname	Salary
1	Smith	Joe	40000
2	Jones	Mary	50000
3	Johnson	Cathy	44000

这个简单的表包括员工代码(EmpId), 姓名字段(Lastname and Firstname)及工资(Salary).

这个表存储在电脑的内存(RAM)和存储(硬盘)中。虽然内存和硬盘在机制上不同，电脑的操作系统是以同样的方式存储的。数据库必须把这个二维表存储在一系列一维的“字节”中，由操作系统写到内存或硬盘中。

行式数据库把一行中的数据值串在一起存储起来，然后再存储下一行的数据，以此类推。

      1,Smith,Joe,40000;
      2,Jones,Mary,50000;
      3,Johnson,Cathy,44000;

列式数据库把一列中的数据值串在一起存储起来，然后再存储下一列的数据，以此类推。

      1,2,3;
      Smith,Jones,Johnson;
      Joe,Mary,Cathy;
      40000,50000,44000;

这只是一个简化的说法。此外，partitioning, 索引, 缓存机制, 视图, 联机分析多维数据集, 以及诸如预写式日志和 multiversion concurrency control 此类的事务系统都在现实的应用环境中发挥作用。一般来说, 侧重于联机事务处理 (OLTPOn-Line Transaction Processing，联机事务处理系统) 的系统更适用行数据库, 而侧重于联机分析处理(On-Line Analytical Processing，联机事物分析处理) 的系统就必须在行数据库和列数据库中找到适当得平衡。

特点

因为硬盘寻址时间相较于计算机上其他部件的运行速度来说慢的不是一般，所以常用相同工作负载下的硬盘访问性能来比较行数据库和列数据库。通常，顺序读取数据要比随机访问更快^[1]。而且，硬盘寻址时间的提升比起CPU速度的进步要慢得多 (参看摩尔定律)，在使用硬盘作为存储媒介的系统上这种情况很可能还会持续一段时间。

下面简单罗列了一些选择行数据库还是列数据库的权衡依据。当然，如果能够把数据全放在内存中，那么使用内存数据库性能会更好。

在只需要根据某几列来聚合数据的时候按列的数据组织方式更有效。因为这样只需要读取一部分数据，要比读取全部数据更快.
当只需要修改某一列值的时候按列的数据组织方式更有效。因为可以直接找到某列数据并修改，而与行中的其他列无关。
当需要某行的多列数据的时候按行的数据组织方式更有效。当行中数据不是太多的情况下一次硬盘寻址就可以获得该行的所有数据。
在新增行数据的时候，如果各列都有值，那么按行的数据组织方式会更有效，因为只需要一次硬盘寻址就可以写入整行的全部数据.

在实际应用中，面向行的数据存储架构更适用于OLTP-频繁交互事务的场景。面向列的数据存储架构更适用于OLAP-(如数据仓库)这样在海量数据（(可能达到 terabyte规模)）中进行有限复杂查询的场景。

列式数据库的代表包括：[HANA], [Sybase IQ]]，ParAccel, Sand/DNA Analytics和 Vertica。

举例

编辑

下面以GBase 8a分析型数据库为例，描述列存储对数据存储与管理的作用。

[1]

面对海量数据分析的 I/O 瓶颈，GBase 8a 把表数据按列的方式存储，其优势体现在以下几个方面。

不读取无效数据：降低 I/O 开销，同时提高每次 I/O 的效率，从而大大提高查询性能。查询语句只从磁盘上读取所需要的列，其他列的数据是不需要读取的。例如，有两张表，每张表100GB 且有100 列，大多数查询只关注几个列，采用列存储，不需要像行存数据库一样，将整行数据取出，只取出需要的列。磁盘 I/0 是行存储的 1/10或更少，查询响应时间提高 10 倍以上。

高压缩比：压缩比可以达到 5 ~ 20 倍以上，数据占有空间降低到传统数据库的1/10 ，节省了存储设备的开销。

当数据库的大小与数据库服务器内存大小之比达到或超过 2:1 （典型的大型系统配置值）时，列存的 I/O 优势

就显得更加明显；