Greenplum安装介绍
基于Greenplum Hadoop- 分布式平台的大数据解决方案 03 - 安装Greenplum(1)
视频和PPT下载:https://download.csdn.net/download/u014646662/10684296
基于Greenplum Hadoop- 分布式平台的大数据解决方案04 - 安装Greenplum(2)
视频和PPT下载:https://download.csdn.net/download/u014646662/10684301
基于Greenplum Hadoop- 分布式平台的大数据解决方案 05 - 安装Greenplum(3)
视频和PPT下载:https://download.csdn.net/download/u014646662/10684308
对人工智能感兴趣的同学,可以点击以下链接:
现在人工智能非常火爆,很多朋友都想学,但是一般的教程都是为博硕生准备的,太难看懂了。最近发现了一个非常适合小白入门的教程,不仅通俗易懂而且还很风趣幽默。所以忍不住分享一下给大家。点这里可以跳转到教程。
https://www.cbedai.net/u014646662
1、评估存储能力
a.计算可用的空间
步骤1:初始存储能力=硬盘大小*硬盘数
步骤2:配置RAID10,格式化磁盘空间=(初始存储能力*0.9)/2
步骤3:可用磁盘空间=格式化磁盘空间*0.7
步骤4:用户数据使用空间
使用镜像:(2*用户数据)+用户数据/3=可用磁盘空间
不使用镜像:用户数据+用户数据/3=可用磁盘空间
b.计算用户数据大小
平均来说,实际占用磁盘空间大小=用户数据*1.4
页面开销:32KB页面需要20 bytes
行开销:每行24 bytes,'append-only'表需要4bytes
索引开销:
B-tree:唯一值*(数据类型大小+24 bytes)
Bitmap:(唯一值*行数*1bit*压缩比率/8)+(唯一值*32)
c.为元数据和日志计算空间需求
系统元数据:20M
预写日志(WAL):WAL被拆分成多个64M的文件,WAL文件数最多为
2*checkpoint_segments+1,checkpoint_segments默认值为8。也就意味着每个实例需要1088MB的WAL空间
GP数据库日志文件:日志轮转
性能监控数据
2、软件准备
greenplum官方下载地址:https://network.pivotal.io/products/pivotal-gpdb/
注册账号后即可下载
如果不想注册,可以选择在csdn上下载
csdn下载greenplum-db-4.3.0-rhel5-x86_64.zip:https://download.csdn.net/download/u014646662/10684386
csdn下载greenplum-db-5.11.1-rhel6-x86_64.zip:https://download.csdn.net/download/u014646662/10684394
csdn下载greenplum-db-5.11.1-rhel7-x86_64.zip:https://download.csdn.net/download/u014646662/10684399
3、虚拟机配置(不要使用图形化界面)
节点 | IP | 内存 | 硬盘 |
mdw | 192.168.136.128 | 3G | 80G |
sdw1 | 192.168.136.129 | 3G | 80G |
sdw2 | 192.168.136.130 | 3G | 80G |
4、系统设置(所有节点)
系统参数
共享内存
网络
用户限制
a.修改或添加/etc/sysctl.conf
xfs_mount_options = rw,noatime,inode64,allocsize=16m
kernel.shmmax = 500000000
kernel.shmmni = 4096
kernel.shmall = 4000000000
kernel.sem = 250 512000 100 2048
kernel.sysrq = 1
kernel.core_uses_pid = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.msgmni = 2048
net.ipv4.tcp_syncookies = 1
net.ipv4.ip_forward = 0
net.ipv4.conf.default.accept_source_route = 0
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_max_syn_backlog = 4096
net.ipv4.conf.all.arp_filter = 1
net.ipv4.ip_local_port_range = 1025 65535
net.core.netdev_max_backlog = 10000
vm.overcommit_memory = 2
b.配置/etc/security/limits.conf文件
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072
c.设置磁盘访问I/O调度策略
# echo deadline > /sys/block/sda/queue/scheduler
# echo deadline > /sys/block/fd0/queue/scheduler
# echo deadline > /sys/block/hdc/queue/scheduler
d.设置预读块的值为16384
# /sbin/blockdev --getra /dev/sda
# /sbin/blockdev --setra 16384 /dev/sda
# /sbin/blockdev --setra 16384 /dev/sda1
# /sbin/blockdev --setra 16384 /dev/sda2
# /sbin/blockdev --setra 16384 /dev/sda3
5、在Master节点上安装Greenplum软件
unzip greenplum-db-4.3.0-rhel5-x86_64.zip
chomod u+x greenplum-db-4.3.27.0-rhel5-x86_64.bin
./greenplum-db-4.3.27.0-rhel5-x86_64.bin
目录介绍
greenplum_path.sh:Greenplum数据库环境变量文件
GPDB-LICENSE.txt:Greenplum许可协议
bin:管理工具、客户端程序及服务程序
demo:示例程序
docs:帮助文档
etc:OpenSSL的配置示例
ext:一些GP工具使用的捆绑程序
inlcude:C头文件
lib:库文件
sbin:支持的或者内部的脚本和程序
share:共享文件
6、在所有主机上初始化配置Greenplum
获取环境参数
source /usr/local/greenplum-db/greenplum_path.sh
创建主机文件all_hosts
文件内容:
mdw
sdw1
sdw2
运行gpseginstall工具
gpseginstall -f all_hosts -u gpadmin -p gpadmin
验证安装
切换到gpamdin用户并获取环境变量
su - gpadmin
source /usr/local/greenplum-db/greenplum_path.sh
使用gpssh工具来测试无密码登录所有主机
gpssh -f host_list -e ls -l $GPHOME
将"/usr/local/greenplum-db/greenplum_path.sh"添加到.bashrc文件最后
创建存储区域
a) 创建Master数据存储区域
mkdir -p /data/master
b) 改变目录的所有权
chown gpadmin /data/master
c) 创建一个包含所有segment主机的文件seg_hosts
文件内容:
sdw1
sdw2
d) 使用gpssh工具在所有segment主机上创建主数据和镜像数据目录
gpssh -f seg_hosts -e 'mkdir -p /data/primary'
gpssh -f seg_hosts -e 'mkdir -p /data/mirror'
gpssh -f seg_hosts -e 'chown gpadmin /data/primary'
gpssh -f seg_hosts -e 'chown gpadmin /data/mirror'
同步系统时间
a) 在Master主机上编辑/etc/ntp.conf来设置如下内容:
server 127.127.1.0
b) 在Segment主机上编辑/etc/ntp.conf
server mdw
c) 在Master主机上,通过NTP守护进程同步系统时钟
gpssh -f all_hosts -v -e 'ntpd'
验证操作系统设置
gpcheck -f all_hosts -m mdw
7、初始化Greenplum数据库系统
创建Greenplum数据库配置文件
a) 以gpadmin用户登录
su - gpadmin
b) 从模板中拷贝一份gpinitsystem_config文件
cp $GPHOME/docs/cli_help/gpconfigs/gpinitsystem_config /home/gpadmin/gpinitsystem_config
chmod 775 gpinitsystem_config
c) 设置所有必须的参数
ARRAY_NAME="EMC Greenplum DW"
SEG_PREFIX=gpseg
PORT_BASE=40000
declare -a DATA_DIRECTORY=(/data/primary)
MASTER_HOSTNAME=mdw
MASTER_DIRECTORY=/data/master
MASTER_PORT=5432
TRUSTED SHELL=ssh
CHECK_POINT_SEGMENT=8
ENCODING=UNICODE
d) 设置可选参数
MIRROR_PORT_BASE=50000
REPLICATION_PORT_BASE=41000
MIRROR_REPLICATION_PORT_BASE=51000
declare -a MIRROR_DATA_DIRECTORY=(/data/mirror)
8、初始化数据库
a) 运行初始化工具
cp /tmp/greenplum/seg_hosts .
gpinitsystem -c gpinitsystem_config -h seg_hosts
b) 设置环境变量
添加“export MASTER_DATA_DIRECTORY=/data/master/gpseg-1”到~/.bashrc文件尾,并同步到其他节点。
scp .bashrc sdw1:`pwd`
scp .bashrc sdw2:`pwd`
9、启动和停止数据库
a) 启动数据库
gpstart
b) 关闭数据库
gpstop