GBase 8a的列存和行列混存
数据在磁盘中按照列的方式进行组织和物理存储。面对海量数据分析的磁盘I/O瓶颈,分析型数据库把表数据按列的方式存储,列存储架构对查询、统计和分析类操作具备天然的优势。其优势体现在以下几个方面:
降低I/O
只有访问查询所涉及的列才会产生磁盘I/O,查询中没有涉及的列不需要访问也不产生磁盘I/O。
高压缩比
压缩比可以达到 2 ~ 20 倍。
支持行列混存
GBase 8a MPP Cluster支持行列混存。对于列存储的集群架构,当操作涉及的列数较多,访问的数据记录非常离散时,会造成大量的离散I/O。行列混存功能通过存储冗余行的信息,提高磁盘 I/O 性能。
分布式存储
GBase 8a MPP Cluster可处理PB级以上的结构化数据,对于大表数据可采用随机数据存储分布策略模式或哈希数据存储分布策略模式。用户可以按照业务场景的需求,选择合适的数据存储分布策略,从而在性能、可靠性和灵活性间获得最佳平衡方案。
随机数据存储分布策略模式
随机数据存储分布策略模式是指数据库创建随机分布的分布表,在进行数据入库时数据将随机均等的分布到各个数据节点上。
哈希数据存储分布策略模式
哈希数据存储分布策略模式是指在数据入库时对原始数据中的每条数据按指定的哈希分布列进行处理,处理后的数据按照哈希值装入特定的哈希桶中,每个哈希桶对应一个集群数据节点。这样每个节点所得到的数据就都具有了某种共同特征(指定列都具有相同的哈希值),在查询时优化引擎可以根据这些共同特征对查询计划进行优化,以达到缩短查询时间的目的。
虚拟集群
一套虚拟集群中可包含一个或多个VC。每个VC是一个物理集群,各VC由同一套Coordinator Cluster管理,各V