greenplum4.2安装配置文档-手把手…

Greenplum是一种基于postgresql（开源数据库）的分布式数据库。其采用shared nothing架构（MPP- Massively Parallel Processing），主机，操作系统，内存，存储都是自我控制的，不存在共享。主要由master host，segment host，interconnect三大部分组成。

了解完Greenplum的架构后，对其工作流程也就相对简单了。因greenplum采用了MPP架构，其主要的优点是大规模的并行处理能力，应该把精力主要放在大规模存储与并行处理两个方面。

2.2 大规模存储

Greenplum数据库通过将数据分布到多个节点上来实现规模数据的存储。数据库的瓶颈经常发生在I/O方面，数据库的诸多性能问题最终总能归罪到I/O身上，久而久之，IO瓶颈成为了数据库性能的永恒的话题。

Greenplum采用分而治之的办法，将数据规律的分布到节点上，充分利用segment主机的IO能力，以此让系统达到最大的IO能力（主要是带宽）。

在greenplum中每个表都是分布在所有节点上的。Master host首先通过对表的某个或多个列进行hash运算，然后根据hash结果将表的数据分布到segment host中。整个过程中master host不存放任何用户数据，只是对客户端进行访问控制和存储表分布逻辑的元数据。

2.3 并行处理

Greenplum的并行处理主要体现在外部表并行装载，并行备份恢复与并行查询处理三个方面。数据仓库的主要精力一般集中在数据的装载和查询，数据的并行装载主要是在采用外部表或者web表方式，通常情况下通过gpfdist来实现。

Gpfidist架构

Gpfdist程序能够以370MB/s装载text格式的文件和200MB/s装载CSV格式文件，ETL带宽为1GB的情况下，我们可以运行3个gpfdist程序装载text文件，或者运行5个gpfdist程序装载CSV格式文件。例如图例中采用了2个gpfdist程序进行数据装载。可以根据实际的环境通过配置postgresql.conf参数文件来优化装载性能。

查询性能的强弱往往由查询优化器的水平来决定，greenplum主节点负责解析SQL与生成执行计划。Greenplum的执行计划生成同样采用基于成本的方式，基于数据库是由诸多segment实例组成，在选择执行计划时主节点还要综合考虑节点间传送数据的代价。

2.4 工作原理:

在主节点上存在query dispatcher (QD)进程，该进程前期负责查询计划的创建和调度，segment instance返回结果后，该进程再进行聚合与向用户展示；segment host存在query executor (QE)进程，该进程负责其它节点相互通信与执行QD调度的执行计划。

Greenplum最为一个严格的数据库系统，同样支持线性扩展，高可用性架构，数据与主机的容错机制，还有数据的分区与压缩功能。

========================================================================================

==本博所有内容均由数据库男本人实际工作环境或模拟操作过程，如有编辑错误或其他问题请和本==

==人留言或联系。发扬互联网精神，一起学习，共同努力，完成由专注到卓越的飞跃。？！？ ==

==QQ:77113981 ！！ @ ============= ==

========================================================================================

DBApower

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
greenplum4.2安装配置文档-手把手…

greenplum4.2安装配置作者:数据库男QQ:77113981 文档属性属性内容客户名称项目名称文档主题文档副标题文档版本1.0文档日期2013-8-20文档状态发布作者数据库男
复制链接

扫一扫