一篇文章彻底理解大数据的列式存储
大家好,我是明哥!
本片文章,跟大家一起探讨下,列式存储与数据质量的相关话题。
1. 什么是列式存储
-
所谓行式存储,指存储结构化数据时,在底层的存储介质上,数据是以行的方式来组织的,即存储完一条记录的所有字段,再存储下一条数据的所以字段,以此类推;
-
所谓列式存储,指存储结构化数据时,在底层的存储介质上,数据时以列的方式来组织的,即存储完若干条记录的首个字段后,再存储这些记录的第二个字段,然后是这些记录的第三个字段,以此类推,当这些记录的所有字段存储完毕后,再按照这种方式,组织存储下一批若干条记录的所有字段;
比如需要存储以下记录:
姓名 | 年龄 | 工资 |
---|---|---|
小张 | 18 | 10000 |
小王 | 19 | 11000 |
小李 | 20 | 12000 |
小赵 | 21 | 13000 |
小周 | 22 | 14000 |
小吴 | 23 | 15000 |
小郑 | 24 | 16000 |
小杨 | 25 | 17000 |
则行存储格式,底层是这样组织的:(示意图)
而列存储格式,底层是这样组织的