Greenplum安装介绍

Greenplum安装介绍

基于Greenplum Hadoop- 分布式平台的大数据解决方案 03 - 安装Greenplum(1)

视频和PPT下载:https://download.csdn.net/download/u014646662/10684296

基于Greenplum Hadoop- 分布式平台的大数据解决方案04 - 安装Greenplum(2)

视频和PPT下载:https://download.csdn.net/download/u014646662/10684301

基于Greenplum Hadoop- 分布式平台的大数据解决方案 05 - 安装Greenplum(3)

视频和PPT下载:https://download.csdn.net/download/u014646662/10684308

1、评估存储能力

a.计算可用的空间
步骤1:初始存储能力=硬盘大小*硬盘数
步骤2:配置RAID10,格式化磁盘空间=(初始存储能力*0.9)/2
步骤3:可用磁盘空间=格式化磁盘空间*0.7
步骤4:用户数据使用空间
  使用镜像:(2*用户数据)+用户数据/3=可用磁盘空间
  不使用镜像:用户数据+用户数据/3=可用磁盘空间

b.计算用户数据大小
平均来说,实际占用磁盘空间大小=用户数据*1.4
页面开销:32KB页面需要20 bytes
行开销:每行24 bytes,'append-only'表需要4bytes
索引开销:
  B-tree:唯一值*(数据类型大小+24 bytes)
  Bitmap:(唯一值*行数*1bit*压缩比率/8)+(唯一值*32)

c.为元数据和日志计算空间需求
系统元数据:20M
预写日志(WAL):WAL被拆分成多个64M的文件,WAL文件数最多为
2*checkpoint_segments+1,checkpoint_segments默认值为8。也就意味着每个实例需要1088MB的WAL空间
GP数据库日志文件:日志轮转
性能监控数据

2、软件准备

greenplum官方下载地址:https://network.pivotal.io/products/pivotal-gpdb/

注册账号后即可下载

如果不想注册,可以选择在csdn上下载

csdn下载greenplum-db-4.3.0-rhel5-x86_64.zip:https://download.csdn.net/download/u014646662/10684386

csdn下载greenplum-db-5.11.1-rhel6-x86_64.zip:https://download.csdn.net/download/u014646662/10684394

csdn下载greenplum-db-5.11.1-rhel7-x86_64.zip:https://download.csdn.net/download/u014646662/10684399

3、虚拟机配置(不要使用图形化界面)

 节点

 IP

 内存

 硬盘

 mdw

 192.168.136.128

 3G

 80G

 sdw1

 192.168.136.129

 3G

 80G

 sdw2

 192.168.136.130

 3G

 80G

4、系统设置(所有节点)

系统参数

    共享内存

    网络     

    用户限制
a.修改或添加/etc/sysctl.conf

xfs_mount_options = rw,noatime,inode64,allocsize=16m
kernel.shmmax = 500000000
kernel.shmmni = 4096
kernel.shmall = 4000000000
kernel.sem = 250 512000 100 2048
kernel.sysrq = 1
kernel.core_uses_pid = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.msgmni = 2048
net.ipv4.tcp_syncookies = 1
net.ipv4.ip_forward = 0
net.ipv4.conf.default.accept_source_route = 0
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_max_syn_backlog = 4096
net.ipv4.conf.all.arp_filter = 1
net.ipv4.ip_local_port_range = 1025 65535
net.core.netdev_max_backlog = 10000    
vm.overcommit_memory = 2

 

b.配置/etc/security/limits.conf文件

   * soft nofile 65536
    * hard nofile 65536
    * soft nproc 131072
    * hard nproc 131072

 c.设置磁盘访问I/O调度策略

    # echo deadline > /sys/block/sda/queue/scheduler
    # echo deadline > /sys/block/fd0/queue/scheduler
    # echo deadline > /sys/block/hdc/queue/scheduler

d.设置预读块的值为16384

  # /sbin/blockdev --getra /dev/sda
    # /sbin/blockdev --setra 16384 /dev/sda
    # /sbin/blockdev --setra 16384 /dev/sda1
    # /sbin/blockdev --setra 16384 /dev/sda2
    # /sbin/blockdev --setra 16384 /dev/sda3

5、在Master节点上安装Greenplum软件

unzip  greenplum-db-4.3.0-rhel5-x86_64.zip
chomod u+x greenplum-db-4.3.27.0-rhel5-x86_64.bin
./greenplum-db-4.3.27.0-rhel5-x86_64.bin

目录介绍

	greenplum_path.sh:Greenplum数据库环境变量文件
	GPDB-LICENSE.txt:Greenplum许可协议
	bin:管理工具、客户端程序及服务程序
	demo:示例程序
	docs:帮助文档
	etc:OpenSSL的配置示例
	ext:一些GP工具使用的捆绑程序
	inlcude:C头文件
	lib:库文件
	sbin:支持的或者内部的脚本和程序
	share:共享文件

6、在所有主机上初始化配置Greenplum

获取环境参数

  source /usr/local/greenplum-db/greenplum_path.sh

创建主机文件all_hosts
    文件内容:

mdw
sdw1
sdw2

运行gpseginstall工具

gpseginstall -f all_hosts -u gpadmin -p gpadmin

验证安装
 切换到gpamdin用户并获取环境变量

su - gpadmin
source /usr/local/greenplum-db/greenplum_path.sh

使用gpssh工具来测试无密码登录所有主机

gpssh -f host_list -e ls -l $GPHOME

 将"/usr/local/greenplum-db/greenplum_path.sh"添加到.bashrc文件最后

创建存储区域
     a) 创建Master数据存储区域

mkdir -p /data/master

    b) 改变目录的所有权

 chown gpadmin /data/master

     c) 创建一个包含所有segment主机的文件seg_hosts
文件内容:

    sdw1
    sdw2

 d) 使用gpssh工具在所有segment主机上创建主数据和镜像数据目录
 

    gpssh -f seg_hosts -e 'mkdir -p /data/primary'
    gpssh -f seg_hosts -e 'mkdir -p /data/mirror'
    gpssh -f seg_hosts -e 'chown gpadmin /data/primary'
    gpssh -f seg_hosts -e 'chown gpadmin /data/mirror'

同步系统时间
     a) 在Master主机上编辑/etc/ntp.conf来设置如下内容:
    server 127.127.1.0
     b) 在Segment主机上编辑/etc/ntp.conf
    server mdw
     c) 在Master主机上,通过NTP守护进程同步系统时钟

  gpssh -f all_hosts -v -e 'ntpd'

验证操作系统设置

gpcheck -f all_hosts -m mdw

7、初始化Greenplum数据库系统

创建Greenplum数据库配置文件
    a) 以gpadmin用户登录
        su - gpadmin
    b) 从模板中拷贝一份gpinitsystem_config文件

cp $GPHOME/docs/cli_help/gpconfigs/gpinitsystem_config     /home/gpadmin/gpinitsystem_config
chmod 775 gpinitsystem_config

 c) 设置所有必须的参数

        ARRAY_NAME="EMC Greenplum DW"
        SEG_PREFIX=gpseg
        PORT_BASE=40000
        declare -a DATA_DIRECTORY=(/data/primary)
        MASTER_HOSTNAME=mdw
        MASTER_DIRECTORY=/data/master
        MASTER_PORT=5432
        TRUSTED SHELL=ssh
        CHECK_POINT_SEGMENT=8
        ENCODING=UNICODE

   d) 设置可选参数

        MIRROR_PORT_BASE=50000
        REPLICATION_PORT_BASE=41000
        MIRROR_REPLICATION_PORT_BASE=51000
        declare -a MIRROR_DATA_DIRECTORY=(/data/mirror)

8、初始化数据库

a) 运行初始化工具

    cp /tmp/greenplum/seg_hosts .
    gpinitsystem -c gpinitsystem_config -h seg_hosts

b) 设置环境变量
添加“export MASTER_DATA_DIRECTORY=/data/master/gpseg-1”到~/.bashrc文件尾,并同步到其他节点。

    scp .bashrc sdw1:`pwd`
    scp .bashrc sdw2:`pwd`

9、启动和停止数据库

a) 启动数据库
    gpstart
b) 关闭数据库
    gpstop

 

 

 

 

 

 

 

 

没有更多推荐了,返回首页