greenplum4.2安装配置文档-手把手…

greenplum4.2安装配置

 

 

 

作者:数据库男

QQ:77113981

 

 

 

文档属性

属性

内容

客户名称

 

项目名称

 

文档主题

 

文档副标题

 

文档版本

1.0

文档日期

2013-8-20

文档状态

发布

作者

数据库男

 

文档变更

版本

修订日期

修订人

描述

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

1       文档说明... 5

1.1             编写目的... 5

1.2             适用范围... 5

2       简介... 6

2.1             Greenplum架构... 6

2.2             大规模存储... 6

2.3             并行处理... 7

2.4             工作原理: 8

3       安装配置... 9

3.1.1         软件环境... 9

3.1.2         硬件资源... 9

3.1.3         环境配置... 9

3.1.4         虚拟机配置... 9

3.2             系统参数配置... 9

3.2.1         修改内核参数... 10

3.2.2         不重启内核参数生效... 10

3.2.3         设置安全限制参数... 11

3.3             修改主机名和hosts文件... 11

3.3.1         修改三个节点/tec/hosts... 11

3.3.2         修改主机名... 11

3.4             三个节点添加用户和组... 13

3.5             创建目录... 13

3.6             greenplum安装... 16

3.6.1         Master节点解压... 17

3.6.2         Master节点安装... 17

3.6.3         将安装目录上传另两个节点... 22

3.7             节点配置... 28

3.7.1         创建master节点配置文件... 28

3.7.2         设置master节点gpadmin用户环境变量... 28

3.7.3         为安装用户设置各个节点的SSH连接... 29

3.7.4         编辑安装配置文件gpinitsystem_config. 31

3.7.5         同步时钟... 33

3.7.6         检查下OS配置是否满足需求... 34

3.7.7         关闭防火墙... 34

4       初始化数据库... 35

4.1             初始化... 35

4.2             设置gp环境变量... 46

5       数据库操作... 48

5.1             连接数据库... 48

5.2             数据库启动... 49

5.3             数据库关闭... 54

5.4             数据库状态... 54

6       其他... 58

7       Troubleshooting. 59

7.1             数据库创建成功,但不能连接... 59

7.1.1         现象... 59

7.1.2         解决方案... 60

7.2             系统重启后,无法启动数据库... 61

7.2.1         现象... 61

7.2.2         解决方案... 61

8       图表目录... 63

 

1    文档说明

1.1  编写目的

通过Window  Xp  vm server2.0 redhat 5.4模拟greenplum群集,加深对greenplum架构的理解和掌握。

1.2  适用范围

对数据库和系统有一定基础,安装部署greenplum的人员。

 

2    简介

2.1  Greenplum架构

Greenplum是一种基于postgresql(开源数据库)的分布式数据库。其采用shared nothing架构(MPP- Massively Parallel Processing),主机,操作系统,内存,存储都是自我控制的,不存在共享。主要由master hostsegment hostinterconnect三大部分组成。

 

了解完Greenplum的架构后,对其工作流程也就相对简单了。因greenplum采用了MPP架构,其主要的优点是大规模的并行处理能力,应该把精力主要放在大规模存储与并行处理两个方面。

2.2  大规模存储

Greenplum数据库通过将数据分布到多个节点上来实现规模数据的存储。数据库的瓶颈经常发生在I/O方面,数据库的诸多性能问题最终总能归罪到I/O身上,久而久之,IO瓶颈成为了数据库性能的永恒的话题。

Greenplum采用分而治之的办法,将数据规律的分布到节点上,充分利用segment主机的IO能力,以此让系统达到最大的IO能力(主要是带宽)。

greenplum中每个表都是分布在所有节点上的。Master host首先通过对表的某个或多个列进行hash运算,然后根据hash结果将表的数据分布到segment host中。整个过程中master host不存放任何用户数据,只是对客户端进行访问控制和存储表分布逻辑的元数据。

 

2.3  并行处理

Greenplum的并行处理主要体现在外部表并行装载,并行备份恢复与并行查询处理三个方面。数据仓库的主要精力一般集中在数据的装载和查询,数据的并行装载主要是在采用外部表或者web表方式,通常情况下通过gpfdist来实现。

 

                                                  Gpfidist架构

Gpfdist程序能够以370MB/s装载text格式的文件和200MB/s装载CSV格式文件,ETL带宽为1GB的情况下,我们可以运行3gpfdist程序装载text文件,或者运行5gpfdist程序装载CSV格式文件。例如图例中采用了2gpfdist程序进行数据装载。可以根据实际的环境通过配置postgresql.conf参数文件来优化装载性能。

查询性能的强弱往往由查询优化器的水平来决定,greenplum主节点负责解析SQL与生成执行计划。Greenplum的执行计划生成同样采用基于成本的方式,基于数据库是由诸多segment实例组成,在选择执行计划时主节点还要综合考虑节点间传送数据的代价。

2.4  工作原理:

在主节点上存在query dispatcher (QD)进程,该进程前期负责查询计划的创建和调度,segment instance返回结果后,该进程再进行聚合与向用户展示;segment host存在query executor (QE)进程,该进程负责其它节点相互通信与执行QD调度的执行计划。

 

Greenplum最为一个严格的数据库系统,同样支持线性扩展,高可用性架构,数据与主机的容错机制,还有数据的分区与压缩功能。

 

========================================================================================

==本博所有内容均由数据库男本人实际工作环境或模拟操作过程,如有编辑错误或其他问题请和本==

==人留言或联系。发扬互联网精神,一起学习,共同努力,完成由专注到卓越的飞跃。?!?    ==

==QQ:77113981                                                !!  =============    ==

========================================================================================

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值