原作者:https://blog.csdn.net/yu616568/article/details/51868447
什么是列式存储
OLAP查询的特点,列式存储可以提升其查询性能,如何做到?
一般关系型数据库都是行存储,日常工作中我们又是仅需要某一列的数据,如果按行存储的化我们需要扫描每一行才能获取列。这样就大大的耗费了成本。而列式存储都是按列进行顺序存储的(每一列都是文件??)所以:
- 查询时不需要扫描整行,仅查询需要的列,大大降低IO,而且可统计每列的min max sum等。
- 每列成员都是同构的,针对不同类型可采用压缩降低IO
- 每一列的成员的同构性,可以使用更加适合CPU pipeline的编码方式,减小CPU的缓存失效
行存储 对比 列存储
Parquet存储格式
兼容MP,spark,支持多种查询引擎 Hive,Impala,Drill等,
数据类型:
文件结构: