说明:本笔记来自:<<Greenplum分布式大数据数据平台实战培训视频 分布式架构师必修>>
ibm netzza 这是一种一体机.
TeradataGreenplum
都是分布式的架构.
GP 在2007年被EMC收购.
08年12月进入中国市场,
阿里巴巴使用.中信银行,平安银行.
分布式架构--->>>MPP (海量并行处理)==share-nothing架构.
有多个数据节点和多个数据库组成.
SMP---对称多处理系统:share-everything,典型代表DB2,Oracle
基于PG8.2开发
相同的客户端功能
增加并行处理的技术
增加数据仓库和BI特性
如:外部表和并行加载(parallel loading)
资源管理
查询优化器的增强(query optimizer enhancement)
client--->LAN--->Master Host--->>interconnect--->>segment host
Master Host
访问系统的入口
数据库的侦听进程(postgres)
处理所有用户的连接
建立查询计划
协调工作处理过程
管理工具
系统目录表和元数据(数据字典)
不存放任何用户数据,因此master host数据库很小.
额外注意:
segment host 在正常业务处理期间,不能被客户端直接访问.
segment host 在例行维护期间,可以被访问.
Segment Host
1台master,2个segment,
生产案例,60多台segment host节点
每段(segment)存放
用户不能直接存取访问
所有对段的访问都经过master
数据库监听进程(postgres)监听来自Master的连接
Interconnect
GP数据库之间的连接层
进程间协调和管理
基于千M以太网架构
属于系统内部私网配置
支持两种协议:TCP和UDP
TCP--面向连接的协议,
UDP--面向非连接的协议,如发送短信,发送QQ消息,不需要三次握手,因此发送效率高,但是容易丢数据.
建议在interconnect中,使用UDP协议,因为,
1.TCP协议有节点多少的限制(官方的限制是1000个节点)
2.GP有额外的数据验证.