那些你不知道的数据库知识:行式存储和列式存储

前几天听课,听到老师讲数据列式存储。

🙋🏻‍♀️:等等,what,什么列式存储,数据一行一行的展示,然后一行一行的存在数据库里面不就好了,什么叫做列式存储,难道将数据按每一列存在数据库里面,那取出数据该有多麻烦啊,这绝对是几十年前的糟粕方法,这个课听不得了,教的东西太老套了。

老师🧑🏻‍🏫:别急别急啊,同学,年轻人不要这么心浮气躁嘛,列式存储的存储效率在现在流行的大数据存储中发挥着重要的作用,其存储效率可比行式存储高的多。我先给你举个例子吧。

10005447.jpg

以学生信息表stu演示。sid为主键,表中记录这五位学生的信息。

image.png

大家比较熟悉的是行式存储,如关系型数据库(MySQL、Oracle等)的存储均采用行式存储,行式存储一目了然,如下图所示,每一位学生的信息存储在存储在存储介质上,先存储zhangsan同学的所有信息,再存储lisi同学的信息,依次存储剩下同学的信息,如下图所示:

image.png

而列式存储,学生的信息数据都是分开保存的,即每一列的数据单独存放,如下图所示,每一列的数据存储在存储介质上,先存储sid这一列,然后存储sname这一列,依次存储剩下的列,如下图所示:

image.png

🙋🏻‍♀️:好的老师,我已经明白您的背景了,快跟我讲讲列式存储的优点吧。

1017E368.jpg

老师🧑🏻‍🏫:那就先来一起看看两种存储方式存储在存储介质上的情况吧。
行式存储,每一个学生的信息都存储在相邻的地方,存储完一个学生的信息,再存储下一个学生的信息,以此类推,如下图所示:

image.png

列式存储,将每一列的数据存储在相邻的地方,然后再存储下一列数据,以此类推,如下图所示:

image.png

老师🧑🏻‍🏫:现在假设一种场景,我要你帮我取出所有学生的姓名,也就是sname这一列,你会怎么做?

对于SQL语句select name from stu;简简单单,可是在存储介质上取出数据的时候,你知道如何取出吗?

对于行式存储,必须从头到尾遍历存储数据,依次取出sname姓名的数据。

image.png

缺点就比较明显了,当我只需要访问几个列时,其他无关列的数据也会被读取,导致IO开销较大;而且数据 **压缩比 **较低,因为每行数据都存储在一起。

对于列式存储,这就简单了,直接定位到sname姓名的位置,就可以直接取出需要的数据了。
在分析型查询(OLAP)中,列式存储通常提供更高的性能。这是因为它只读取查询所需的列,大大减少了IO成本,加快了查询速度。

而且对于同一列的数据类型相同,便于压缩,通常具有更高的压缩比。非常适合大数据存储,如数据仓库,因为它可以快速读取和分析大量数据。

image.png

🙋🏻‍♀️:等等,MySQL不是有索引吗?我给sname单独加一条索引不就行了,这样查询的时候就可以利用 索引覆盖 的特性,直接拿到这一列的数据了呀!

10131434.gif

老师🧑🏻‍🏫:这位同学,请注意我们现在讲的是列式存储和行式存储,不是在讲MySQL哈。而且像你这样单独给sname加一条索引的做法,其实就是把同一列的数据存储在了一起,也是列式存储的一种应用方式。

🙋🏻‍♀️:原来MySQL里也有列式存储啊……

image.png

🙋🏻‍♀️:再等等,如果我要一个场景,请取出名字为‘zhangsan’的同学的所有信息,阁下该如何应对?

老师🧑🏻‍🏫:啊这,角色互换了,这样列式存储的效率确实比行式存储的效率低很多了。
对于行式存储,只需要定位到“zhangsan”的位置,就可以直接取出需要的信息;
那行式存储的优点显而易见,对单行数据的操作效率更高,比较适用于事务型查询(OLTP),像频繁的增删改查的操作;当需要访问整行数据时,性能比较高;写入也会比较快,因为一次性完成整行的数据;

image.png

对于列式存储,需要从头到尾遍历数据,根据元数据信息,一次取出“zhangsan”的信息。
列式存储的致命缺点就是行事查询、更新和删除操作比较复杂,因为需要处理多个列。而且写入性能比较低,因为需要将一行数据拆分成多个列分别写入。

image.png

老师🧑🏻‍🏫:你这小子,倒也不傻,我看你骨骼清奇,若勤加修炼,日后必得高升,我这有一本数据库修炼秘籍,只要九十九,你看,带不带一本走?
🙋🏻‍♀️:6啊,现在的广告真隐蔽。

1018B7BF.gif


言归正传,再来正式的聊聊行式存储和列式存储吧。

列式存储比行式存储可以节省多少空间

大家一定非常好奇,列式存储比行式存储到底可以节省多少空间,才让博主绕这么一大圈来讲列式存储。

毫无疑问,列式存储比行式存储具有更高的数据压缩率。根据数据的类型和压缩技术,列式存储可以实现高达十倍甚至更高的压缩比,这意味着,列式存储能够节省大量的存储空间,降低存储成本。

101BEA1B.gif

当然,具体节省的空间取决于多种因素,包括数据的重复性,列中数据类型的一致性以及采用的压缩算法。在实际应用中,节省的空间可能会有很大的差异,例如,如果一个数据集中的某些列包含大量重复的值,那么列式存储在这些列上的压缩效果会非常显著。

而对于数据变化较大,不适合压缩的场景,节省的空间可能就不那么明显了。

列式存储和行式存储的区别

说了这么多,那列式存储和行式存储之间还有其他区别吗?

当然有,这区别可是非常大的,你且慢慢看来:

  1. 结构灵活性:
    • 列式存储倾向于结构弱化,更适合于不定长的记录和稀疏数据集,因为它可以有效地处理不存在的列。
    • 行式存储则倾向于结构固定,每行数据都需要有相同的列结构。
  2. 主键存储:
    • 行式存储中,一行数据仅需要一个主键。
    • 列式存储中,存储一行数据可能需要多份主键,因为每个列都是独立存储的。
  3. 压缩算法的选择:
    • 列式存储可以针对不同列类型,选择最合适的压缩算法,因为每列数据的类型是已知的。
    • 行式存储的压缩算法选择不如列式存储灵活,因为它需要处理多种数据类型的混合。
  4. IO消耗:
    • 列式存储在查询时只需要读取参与计算的列,极大地减低了IO消耗。
    • 行式存储在读取少数几列时,需要遍历其他无关列,IO开销较大。
  5. 数据更新:
    • 列式存储不适用于数据需要频繁更新的交易场景,因为每次更新可能涉及多个列的变更。
    • 行式存储更适合频繁更新的场景,因为整行数据通常是连续存储的。

拓展:ORC存储

另外,向大家推荐一种存储方式,即ORC存储,也叫混合存储结构。

ORC(Optimized Row Columnar)是一种高效的列式存储格式,最初由Apache Hive项目开发,用于优化Hadoop数据存储和查询速度。它并不是纯粹的列式存储,而是采用了混合存储结构,先按行组分割表,然后在每个行组内部按列存储数据。ORC文件是自描述的,其元数据使用Protocol Buffers序列化,且数据尽可能压缩以减少存储空间消耗。

ORC文件的主要优势包括:

  • 高压缩比:列式存储运行多种文件压缩方式,提供很高的压缩比;
  • 文件可切分:便于在Hive等系统中分布式处理。
  • 索引支持:提供多种索引,如row group index和bloom filter index,以优化查询。
  • 复杂数据结构支持:能够处理如Map等复杂数据类型。

ORC文件结构包括多个层级,如文件级元数据、stripe(包含多条记录的行组)、stripe元数据和row group,这些结构支持有效的数据读取和查询优化。例如,ORC利用三个层级的统计信息来实现谓词下推,从而避免读取不必要的数据,提高查询性能。

后记

这篇关于数据的行式存储和列式存储,其实是我女朋友在学习大数据知识的时候了解到的,我个人对这块也只是一知半解,如果文中有错误的地方,欢迎大家在评论区指出。

image.png

  • 17
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
行式数据库(Row-Oriented Database)和列式数据库(Column-Oriented Database)是两种常见的数据库数据存储模式,它们的设计理念和查询优化策略有所不同。 **行式数据库**: - **设计基础**:以表格的形式存储数据,每一行代表一条记录,每一列代表一个属性或字段。 - **查询模型**:行式数据库通常按行进行查询,用户需要获取所有相关的字段信息,这在传统的关系型数据库(如MySQL, Oracle)中很常见。 - **优点**:对于事务处理和ACID一致性要求高的场景,以及复杂的SQL查询,性能较好。 - **缺点**:对于大数据分析,尤其是当需要扫描大量时,可能会遇到性能瓶颈,因为数据不是按照来组织的。 **列式数据库**: - **设计基础**:将数据分解并存储,每个都有自己的索引,便于对单进行并行处理和压缩。 - **查询模型**:列式数据库倾向于优化对单或多的扫描,适合于执行聚合操作和数据挖掘。 - **优点**:对于大数据分析和在线分析处理(OLAP)场景非常高效,查询速度更快,特别是对大量数据的聚合计算。 - **缺点**:写入操作可能较慢,因为每次更新都需要重新整理数据,且对于只读不写的场景下可能会显得过于复杂。 **相关问题**: 1. 举例说明何时会考虑使用列式数据库? 2. 行式数据库列式数据库数据压缩方面有何不同? 3. 列式数据库如何支持大规模数据的并行查询?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿杆.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值