greenplum客户端工具_大数据运维之漫谈GreenPlum

本文详细介绍了Greenplum的架构特性,包括其基于PostgreSQL的分布式数据库集群设计,强调了其在大数据分析处理中的优势。Greenplum采用双管理节点、多计算节点模式,通过数据分布和并行计算提升性能。文章还探讨了Greenplum的高可用策略,如primary和mirror实例,以及在灾备策略中的带库备份和GPHDFS备份方案。
摘要由CSDN通过智能技术生成
5ff692df0a9453668ee8c5e6e07ad904.pngGreenplum起源

同Oracle、DB2、MySQL等一样PostgreSQL也是一种目前用用广泛的关系型数据库,所不同的是PostgreSQL是完全开源的关系型数据库产品。PostgreSQL功能强大、特性最丰富的、技术先进的自由软件数据库系统之一,支持绝大多数主流关系型数据库的特性。Greenplum是通过封装底层PostgreSQL库实现的,是一个关系型数据库集群,实际上是由多个数据库(PostgreSQL)服务组成的逻辑数据库。Greenplum是实现Share-Nothing的MPP并行数据库集群,集群由管理节点(Master host)和数据节点(Segment Host)组成,单个数据节点可以运行多个数据库实例。由于是Share-Nothing架构的,集群中数据每个数据节点的资源都是独立的,如:CPU、内存、磁盘,每个数据节点都保存全部数据的一部分,运用本节点资源对数据进行处理。

以下针对时下主流的Greenplum(4版本)作架构特性、高可用实现以及可行性灾备策略探讨。

5ff692df0a9453668ee8c5e6e07ad904.pngGreenplum架构特性

Greenplum采用双管理节点、多计算节点的模式实现大数据的并行处理,架构如下图所示。Greenplum基于Shared-Nothing分布式架构模式,每个节点资源独立,负责处理全部数据中的一部分,实现高效处理I/O数据吞吐和并发计算。Greenplum在处理数据过程中,将需要存储的数据在数据入库阶段就先将数据进行分布处理,通过指定分布列(distribute column),然后通过Hash来分布数据,借以实现随机将某一数据表数据均匀的分布在每个数据节点。Greenplum这样的处理模式可以充分的发挥每个节点的I/O处理能力,I/O瓶颈问题的解决为并行计算提供了良好的环境,将所有的节点整合成一个具备强大计算能力的计算平台,实现快速海量数据的并行运算。

3c33d3aa7cc646057ad6a3c962ea854a.png

Master主机:

1.建立并管理与客户端的会话连接ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值