从一个例子开始了解行式存储和列式存储

最新推荐文章于 2024-04-25 12:31:00 发布

WhisperOfTheHeart

最新推荐文章于 2024-04-25 12:31:00 发布

阅读量743

点赞数

分类专栏：数据库相关文章标签：数据库 sql 数据结构

本文链接：https://blog.csdn.net/WhisperOfTheHeart/article/details/105248470

版权

0 篇文章 0 订阅

订阅专栏

行式存储和列式存储

1	计算机概论	大一	2	数据结构	大二	3	计算机网络	大三

1	2	3	计算机概论	数据结构	计算机网络	大一	大二	大三

从他们的结构上可以看出，行存储在写入时比列存储要快（eg：如果是机械硬盘，列存储时磁头在磁盘上只需要顺序写入，而列存储需要频繁的移动定位到下一个字段需要写入的地址，造成了时间上的开销）；同时由于行存储下表的数据是放在一起的，一次写入，所以数据的完整性可以确定；

读操作涉及情况种类比较多，不同情况对两种存储方式来说效率也不同，我们不妨先假设以下几种情况；
1. 我们需要查询表中所有大一所开设的课程的所有id，如果是行存储，那么在查询时势必会将课程名和年级一起查询出来，这么一开就造成了数据的冗余，而冗余的数据列使我们不需要的，这个例子中只有三个字段，此影响比较小，如果是20个字段呢，就会有19个冗余的字段，此时就会影响到处理数据的效率了；那如果是列存储呢？这就方便很多了，因为列存储是按列存储在一起的，所以每列都单独存放，每一行数据即为整个表的索引，所以在将大三这个值和date列上的所有值比对后就能很快通过索引查询到课程名了；
2. 假设我们需要查询所有书籍的所有信息，通过上面已经知道列存储每一列单独存放，此时我们需要先查询出每一列，然后再通过聚集运算（如果数据有压缩还必须进行解压缩，压缩这一点我会在下文中讲到）把列上的每个数据拼接成行，同理，在只有三个字段下的情况下开销会比较小，但是增加到20乃至更多的列数时带来的开销就比较大了，而行式存储在这种情况下就显得更加合适。

还是用这个学科表的例子，如果我们只用二进制数字来表示学科开设的年级（date）,比如说：00表大一、01表大二、10表大三、11表大四，那么我们这个表可以变成下两张表：

我们假设date原来是char（4）类型，也就是4个字节，压缩后，我们可以用一个字节存储，当数据的记录条数非常大时，可节约的空间是非常大的；

同样让我们看看行存储和列存储在这种情况下的压缩情况，可以很清楚的看到，由于列存储的结构（按列存储，数据类型一致），压缩对他而言是轻而易举的，只需要读取该列上的数据然后顺序替代成压缩后的数据即可，这个过程是非常快的；

很多传统的行式存储数据库为了加快查询效率，通常会建立索引，而建立所有需要耗费数据库的空间资源，也会增加时间开销，而列式存储因为数据即索引，所以空间开销会好很多，只访问查询所涉及的列时，可以大大降低系统IO开销

关注

专栏目录