一、数据在磁盘中按照列的方式进行组织和物理存储。
• 表的每一列物理上分开存储
• 数据以DC(数据单元)为单位进行组织,存成DC文件
• DC文件依据操作系统的文件大小限制进行分裂和存储
• DC是基本I/O单位,只有查询所涉及到的列才产生I/O
• 每个DC包含65536行数据,数据行数不足时以DC尾块形式单独存放。
• DC尾块不封装、不压缩。
二、面对海量数据分析的 I/O 瓶颈,分析型数据库把表数据按列的方式存储,其优势体现在以下几个方面。
• 降低 I/O:只有访问查询所涉及的列产生 I/O,查询没有涉及的列不需要访问,不产生 I/O;
• 高压缩比:压缩比可以达到 1:2 ~ 1:20 以上;
• 支持行列混存,降低 select *场景下的 I/O 量提升性能。