Greenplum中分布式数据库存储及查询处理

分布存储

Greenplum是一个分布式数据库系统,因此其所有的业务数据都是物理存放在集群的所有Segment实例数据库上;在Greenplum数据库中所有表都是分布式的,所以每一张表都会被切片,每个Segment实例数据库都会存放相应的数据片段。在下图中sale、customer、vendor、product四张表的数据都会切片存放在所有的Segment上,所有Segment实例同时工作,由于每个Segment只需要计算一部分数据,所以计算效率会大大提升。

这里写图片描述
这里写图片描述

表分布的策略-并行计算的基础

Hash分布

语法格式:
CREATE TABLE … DISTRIBUTED BY (column [,…])
同样数值的内容被分配到同一个Segment上;当选择Hash分布策略时,可指定表的一列或者多列组合。GP会根据指定的Hash Key列计算每一行数据对应的Hash值,并映射至相应的Segment实例。当选择的Hash Key列的值唯一时,数据将会均匀地分散至所有的Segment实例。GP数据库默认采用Hash分布,如果创建表时未指定Distributed Key,则会选择Primary Key作为Distributed Key,如果Primary Key也不存在,则会选择表的第一列作为Distributed Key。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Greenplum数据库是一种高性能的分布式数据库系统,它基于开源的PostgreSQL数据库,专为大规模数据分析和处理而设计。Greenplum具备横向扩展能力,可以在多个节点上分布式存储和处理数据,以提供更好的性能和可扩展性。 Greenplum数据库的特点包括: 1. 并行处理:Greenplum可以将大数据集分成多个片段,然后在多个节点上同时处理和分析,从而提高处理速度。 2. 列存储Greenplum使用列存储技术来优化查询性能。它将每个列存储在独立的文件,可以更快地访问和查询特定的列数据。 3. 数据压缩:Greenplum可以对数据进行压缩,以减少存储空间,并提高查询性能。 4. 数据分片:Greenplum将数据集分成多个片段,并在不同的节点上存储,以实现数据的并行处理。 5. 多维数据分析:Greenplum内置了许多用于多维数据分析的功能和工具,使得用户可以轻松地进行复杂的数据查询和分析操作。 Greenplum数据库适用于大规模数据分析和处理的场景,如数据仓库、商业智能、大数据分析等。它可以处理PB级别的数据,并且提供了强大的查询和分析能力。同时,Greenplum还提供了丰富的功能和工具,以帮助用户进行数据的导入、导出和转换,使得数据的处理变得更加简单和高效。 总之,Greenplum数据库是一种强大的分布式数据库系统,它通过并行处理、列存储等技术,提供了高性能和可扩展的数据分析和处理能力。如果您需要处理大规模数据集并进行复杂的数据分析操作,Greenplum数据库是一个值得考虑的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值