GBASE 8a MPP Cluster 核心技术 -- 单节点数据列存储技术

1.列存储和行列混存

数据在磁盘中按照列的方式进行组织和物理存储。行存储架构和列存储架构的数据库分别适用于不同的应用,具备各自的优劣势,如下图所示。列存储架构对查询、统计和分析类操作具备天然的优势。

上图  行存、列存对比

例如,在分析系统中,约100列的业务表是很常见的。对于常见的分析查询来说,对该业务表列的引用一般不超过10个。对I/O是主要瓶颈的分析系统而言,相较于传统的行式数据库,列式存储技术可以很容易地带来一个数量级的性能提升。

面对海量数据分析的I/O瓶颈,分析型数据库把表数据按列的方式存储,其优势体现在以下几个方面。
 

  • 降低I/O:只有访问查询所涉及的列产生I/O,查询没有涉及的列不需要访问,不产生I/O;
  • 高压缩比:压缩比可以达到 1 ~ 20 倍以上;
  • 支持列存和行列混存。

2.高效透明压缩技术

高效透明压缩技术能够按照数据类型和数据分布规律自动选择最优压缩算法,尽可能减少数据所占的存储空间,降低查询的 I/O 消耗,提升查询性能。并设置了库级,表级,列级压缩选项,灵活平衡性能与压缩比的关系,而且压缩与解压缩过程对用户是透明的。

从 I/O 资源消耗节约的角度来看,对 I/O是主要瓶颈的分析系统而言,相较于传统的行式数据库,高效透明压缩技术可以带来约一个数量级的性能提升。

自适应透明压缩示意图 

  • 压缩比可达到1:3至1:20甚至更优,远远高于行存储;
  • 节省50%-90%的存储空间,大大降低数据处理能耗;
  • 内置数十种不同等级的压缩算法。上图展示了一种对数值型数据的压缩算法;
  • 压缩态下对I/O要求大大降低,数据加载和查询性能明显提升。

3.智能索引

 智能索引是一种粗粒度索引,每65536行数据打成一个DC包,每个数据包在加载数据时自动建立智能索引,包含过滤信息和统计信息,在数据查询时不需要解包就能得到统计值,可进一步降低I/O,对复杂查询的优化效果明显。如下图所示,左侧的“SmartIndex of Col 1”即在第一列数据上,以各数据包(DC)为单位建立的智能索引。

智能索引示意图

  • 表中的所有列自动建立,不需用户手工建立和维护;
  • 索引本身占空间很少,扩展性很好,建立索引后无膨胀;
  • 建立索引的速度快,后续的数据包建立索引的速度不会受到前面数据包的影响。

与传统数据库索引技术相比,智能索引建立在数据包上(粗粒度索引),并且每个字段均自动建有索引,而传统索引建立在每行数据上(细粒度索引),因此访问智能索引要比访问传统索引需要更少的I/O(几万分之一)。同时,智能索引所占空间大约是数据的百分之一,而传统数据库索引则要占到数据的20~ 50%。

4.并行技术
GBase 8a MPP Cluster 针对数据加载和数据查询实现了自动高效的并行处理技术,充分利用SMP多核CPU资源并行处理海量数据。

同时GBase 8a MPP Cluster 具有智能的算法适配功能。例如灵活的 Join 处理方式,支持 Hash Join、Nest-loop Join、Merge Join等。针对不同的数据分布及特征,会智能地选择不同算法进行处理。这也充分解决各种行业应用中 Join 操作,特别是 10 个以上的多表Join操作带来的性能压力。

GBase 8a MPP Cluster每个GNode节点都能够独立实现数据的计算和存储。集群接口驱动可以有效实现对上层应用请求的负载进行均衡(应用调用接口驱动的连接串中配置集群管理节点的多个IP,接口驱动的内部进行连接的负载均衡)。应用层请求响应节点完成SQL解析并生成执行计划,协调集群相关节点并发参与计算和处理,极大地提高了整个集群节点的并发度,充分发挥了集群性能。

5.高性能
GBase 8a MPP Cluster的列式存储和计算技术,通过针对列数据特点的高效透明压缩技术和智能索引,节省了近3个量级CPU和I/O资源消耗,分析查询性能比传统行式数据库高 50 到 1000 倍。同时,CPU 和 I/O 资源的大幅节约,也大幅提升了数据装载、数据导出、数据处理和备份恢复等操作的性能。

GBase 8a MPP Cluster的无共享 MPP 架构具有线性扩展能力,能支撑成百上千个节点规模的集群。非对称部署的集群节点上可以多线程并行地执行查询、数据装载、数据导出、数据处理和备份恢复等任务,节点越多,处理能力就越强,单个任务资源消耗和时间开销就越少。

6.备份和恢复
大数据不仅仅对数据处理和分析查询的性能带来挑战,对备份和恢复的要求也更高。因为数据量巨大,如果备份和恢复的速度跟不上,在意外、故障或灾难发生时,无法及时使数据库得到恢复,系统和业务的可用性就无法得到保障。

GBase 8a MPP Cluster提供全面的备份和恢复功能,包括:

全量备份和恢复;
增量备份和恢复:允许恢复到任意一个备份上。
7.OLAP函数
GBase 8a MPP Cluster 提供OLAP函数,用于支持复杂的分析操作,侧重于对决策人员和高层管理人员的决策支持。可根据分析人员的要求,快速灵活地进行大数据量的复杂查询处理,以便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值