Greenplum架构特性同Oracle、DB2、MySQL等一样PostgreSQL也是一种目前用用广泛的关系型数据库,所不同的是PostgreSQL是完全开源的关系型数据库产品。PostgreSQL功能强大、特性最丰富的、技术先进的自由软件数据库系统之一,支持绝大多数主流关系型数据库的特性。Greenplum是通过封装底层PostgreSQL库实现的,是一个关系型数据库集群,实际上是由多个数据库(PostgreSQL)服务组成的逻辑数据库。Greenplum是实现Share-Nothing的MPP并行数据库集群,集群由管理节点(Master host)和数据节点(Segment Host)组成,单个数据节点可以运行多个数据库实例。由于是Share-Nothing架构的,集群中数据每个数据节点的资源都是独立的,如:CPU、内存、磁盘,每个数据节点都保存全部数据的一部分,运用本节点资源对数据进行处理。
以下针对时下主流的Greenplum(4版本)作架构特性、高可用实现以及可行性灾备策略探讨。
Greenplum采用双管理节点、多计算节点的模式实现大数据的并行处理,架构如下图所示。Greenplum基于Shared-Nothing分布式架构模式,每个节点资源独立,负责处理全部数据中的一部分,实现高效处理I/O数据吞吐和并发计算。Greenplum在处理数据过程中,将需要存储的数据在数据入库阶段就先将数据进行分布处理,通过指定分布列(distribute column),然后通过Hash来分布数据,借以实现随机将某一数据表数据均匀的分布在每个数据节点。Greenplum这样的处理模式可以充分的发挥每个节点的I/O处理能力,I/O瓶颈问题的解决为并行计算提供了良好的环境,将所有的节点整合成一个具备强大计算能力的计算平台,实现快速海量数据的并行运算。
Master主机:
1.建立并管理与客户端的会话连接ÿ