了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站
随着Greenplum大数据平台正式进入6时代,Greenplum 新版本在功能和性能上都实现大幅度地提升。Greenplum 用户麦煜遥将在本文详细介绍如何在Linux上搭建Greenplum 6.1集群。
1. 安装说明
1.1 环境说明
操作系统: CentOS release 6.6
数据库: Greenplum 6.1
辅助工具: Winscp, Putty
Winscp: 以root权限登录,远程连接Linux修改文档内容。Putty: 远程连接Linux运行命令。
1.2 参考安装教程
• Greenplum 5 <Greenplum 企业应用实战> 何勇,陈晓峰
• Greenplum 6 官网
https://gpdb.docs.pivotal.io/6-1/install_guide/prep_os.html#topic1
1.3 Greenplum 6.1 下载
https://github.com/greenplum-db/gpdb/releases/tag/6.1.0
备注:Greenplum 6.1 安装有两种方法:
一是,下载源码,本地编译、安装;
二是,直接下载编译好的包安装。
这里选择的是,下载编译好的包安装,对于POC来讲,比较节省时间。
1.4 集群介绍
我搭建的 Greenplum 集群,使用1个 Master ,3个 Segment 的集群,如下:
192.168.xxx.1 Master
192.168.xxx.3 Segment
192.168.xxx.4 Segment
192.168.xxx.5 Segment
备注:192.168.xxx.2 是 ETL 的 Pentaho 服务器,后面用来做测试的,没有在此列。
1.5 Master 与 Segment 职责对比
Master:
(1) 建立与客户端的回话连接和管理
(2) SQL的解析并形成分布式的执行计划
(3) 将生成好的执行计划分发到每个 Segment 上执行
(4) 收集 Segment 的执行结果
(5) Master 不存储业务数据,只存储数据字典
(6) Master 主机可以一主一备,分布在两台机器上
(7) 为了提高性能, Master 最好单独占用一台机器
Segment:
(1) 业务数据的存储和存取
(2) 执行 Master 分发的 SQL 语句
(3) 对于 Master 来讲,每个 Segment 都是对等的,负责对应数据的存储和计算
(4) 每一台机器上可以配置一到多个 Segment
(5) 由于每个 Segment 都是对等的,建议采用相同的机器配置
(6) Segment 分 primary 和 mirror 两种,一般交错的存放在子节点上。
2. 安装环境准备
2.1 关闭SELINUX (4台)
• /etc/selinux/config
SELINUX=disabled
备注:关闭后,就不用再开启,也不需要reboot。另外,用 Winscp 去编辑文档,比在命令环境方便多了。
2.2 关闭防火墙 (4台)
配置的时候,要保证所有的机器的网络都是通的,并且每台机器的防火墙都是关闭的,避免存在网络不通的情况。
• 查看防火墙状态
> service iptables status
• 关闭防火墙
> service iptables stop
• 永久关闭防火墙
> chkconfig iptables off
备注:CentOS 6的命令是iptables,和CentOS 7不同。防火墙关闭后,就不用再开启。
2.3 配置/etc/hosts (4台)
主要是为之后 Greenplum 能够在各个节点之间相互通信做准备。习惯将 Master 叫 mdw,Segment 叫 sdw 。4台都要设置:
192.168.xxx.1 (主机名) mdw
192.168.xxx.3 (主机名) sdw1
192.168.xxx.4 (主机名) sdw2
192.168.xxx.5 (主机名) sdw3
备注:hosts文件是Linux系统中负责ip地址与域名快速解析的文件,我这台DEV服务器装了很多东西,主机名已经配置了。所以,mdw只是一个主机的别名,不影响程序去查找IP。