greenplum客户端工具_大数据运维之漫谈GreenPlum

最新推荐文章于 2022-07-13 18:27:28 发布

weixin_39546747

最新推荐文章于 2022-07-13 18:27:28 发布

阅读量396

点赞数

文章标签： greenplum客户端工具

本文链接：https://blog.csdn.net/weixin_39546747/article/details/111641789

版权

本文详细介绍了Greenplum的架构特性，包括其基于PostgreSQL的分布式数据库集群设计，强调了其在大数据分析处理中的优势。Greenplum采用双管理节点、多计算节点模式，通过数据分布和并行计算提升性能。文章还探讨了Greenplum的高可用策略，如primary和mirror实例，以及在灾备策略中的带库备份和GPHDFS备份方案。

摘要由CSDN通过智能技术生成

Greenplum起源

同Oracle、DB2、MySQL等一样PostgreSQL也是一种目前用用广泛的关系型数据库，所不同的是PostgreSQL是完全开源的关系型数据库产品。PostgreSQL功能强大、特性最丰富的、技术先进的自由软件数据库系统之一，支持绝大多数主流关系型数据库的特性。Greenplum是通过封装底层PostgreSQL库实现的，是一个关系型数据库集群，实际上是由多个数据库(PostgreSQL)服务组成的逻辑数据库。Greenplum是实现Share-Nothing的MPP并行数据库集群，集群由管理节点(Master host)和数据节点(Segment Host)组成，单个数据节点可以运行多个数据库实例。由于是Share-Nothing架构的，集群中数据每个数据节点的资源都是独立的，如：CPU、内存、磁盘，每个数据节点都保存全部数据的一部分，运用本节点资源对数据进行处理。

以下针对时下主流的Greenplum(4版本)作架构特性、高可用实现以及可行性灾备策略探讨。

Greenplum架构特性

Greenplum采用双管理节点、多计算节点的模式实现大数据的并行处理，架构如下图所示。Greenplum基于Shared-Nothing分布式架构模式，每个节点资源独立，负责处理全部数据中的一部分，实现高效处理I/O数据吞吐和并发计算。Greenplum在处理数据过程中，将需要存储的数据在数据入库阶段就先将数据进行分布处理，通过指定分布列(distribute column)，然后通过Hash来分布数据，借以实现随机将某一数据表数据均匀的分布在每个数据节点。Greenplum这样的处理模式可以充分的发挥每个节点的I/O处理能力，I/O瓶颈问题的解决为并行计算提供了良好的环境，将所有的节点整合成一个具备强大计算能力的计算平台，实现快速海量数据的并行运算。

Master主机：

1.建立并管理与客户端的会话连接ÿ