一篇文章彻底理解大数据的列式存储

本文深入探讨了列式存储的概念,以Apache Parquet为例详细介绍了其数据组织格式。列式存储在大数据分析中具有高压缩率和查询效率的优势,尤其适合OLAP系统。与行式存储对比,列式存储更利于数据质量的提升,减少了因特殊字符导致的数据混乱问题。
摘要由CSDN通过智能技术生成

一篇文章彻底理解大数据的列式存储

大家好,我是明哥!

本片文章,跟大家一起探讨下,列式存储与数据质量的相关话题。

1. 什么是列式存储

  • 所谓行式存储,指存储结构化数据时,在底层的存储介质上,数据是以行的方式来组织的,即存储完一条记录的所有字段,再存储下一条数据的所以字段,以此类推;

  • 所谓列式存储,指存储结构化数据时,在底层的存储介质上,数据时以列的方式来组织的,即存储完若干条记录的首个字段后,再存储这些记录的第二个字段,然后是这些记录的第三个字段,以此类推,当这些记录的所有字段存储完毕后,再按照这种方式,组织存储下一批若干条记录的所有字段;

比如需要存储以下记录:

姓名 年龄 工资
小张 18 10000
小王 19 11000
小李 20 12000
小赵 21 13000
小周 22 14000
小吴 23 15000
小郑 24 16000
小杨 25 17000

则行存储格式,底层是这样组织的:(示意图)
image

而列存储格式,底层是这样组织的

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哥的IT随笔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值