Greenplum(一)【MPP 架构 & 数据类型】

1、Greenplum 入门

        Greenplum 是基于 MPP 架构的一款分布式分析型数据库,具备关系型数据库的特点,因为它处理的是结构化的数据,同时具备大数据分布式的特点。

1.1、MPP 架构

        MPP(Massively Parallel Processing)架构是一种用于处理大规模数据的计算架构,它通过将任务分配给多个处理单元并行执行,以提高处理速度和性能MPP 架构的由来可以追溯到对大规模数据处理需求的不断增长,传统的单一处理器或对称多处理器(SMP)架构无法满足这些需求。MPP 架构允许在大规模数据集上实现水平扩展,通过添加更多的处理单元来增加计算和存储能力。

  1. 分布式存储: 面对海量数据和计算时,采用大事化小的思路,对数据进行分割,数据分割后单独存储,数据处理消耗的资源也是相互隔开的,对于MPP数据库来讲,整个数据库由多个完全独立的数据库构成,各个拥有完整的数据存储、数据管理、数据操作能力。
  2. 并行处理: MPP 架构通过将任务分解成小块,并同时在多个处理单元上执行这些任务来实现并行处理。每个处理单元负责处理数据的一个子集,然后将结果合并以生成最终的输出。
  3. 共享无状态架构 MPP 系统通常采用共享无状态的架构,基于网络实现节点互联,形成一个整体对外提供服务,节点间互不干扰,即Share Nothing,不共享磁盘和计算能力。每个节点之间没有共享的状态,每个节点都可以独立处理查询请求,并将结果合并返回给用户。与传统的共享架构不同,MPP采用非共享架构(Share Nothing),将单机数据库节点组成集群,每个节点拥有独立的磁盘和内存系统,通过专用网络或商业通用网络连接彼此、协同计算,从而提供整体数据处理服务。这使得系统更容易水平扩展,因为可以简单地添加更多的节点,而不需要共享状态的复杂管理。

  4. 负载平衡: MPP 数据库通常具有负载平衡机制,确保任务在各个节点上均匀分布,避免某些节点成为性能瓶颈。
  5. 高可用性: 为了提高系统的可用性,MPP 架构通常设计成具有容错和故障恢复机制。如果一个节点出现故障,系统可以继续运行,而不会丢失数据或中断服务。

MPP 架构的缺点:如果整个集群有straggler,会导致整个engine的性能下降到该straggler的能力,木桶短板,故MPP架构不适合异构的机器,要求各节点配置一样

1.2、Greenplum

        Greenplum 是基于开源 PostgreSQL 的分布式数据库,采用 shared-nothing 架构,即主机、操作系统、内存、存储都是每台服务器独立自我控制,不存在共享。

        Greenplum 本质上是一个关系型数据库集群(可以理解为多个 MySQL 服务器组成的集群),实际上是由多个独立的数据库服务组合而成的一个逻辑数据库。

1.3、Greenplum 的组成

        GreenPlum 数据库是由 Master Server、Segment Server 和 Interconnect 三部分组成,Master Server 和 Segment Server 的互联使用 Interconnect。

        Greenplum是一个关系型数据库,是由数个独立的数据服务组合成的逻辑数据库,整个集群由多个数据节点(Segment Host)和控制节点(Master Host)组成。在典型的 Shared-Nothing中,每个节点上所有的资源的CPU、内存、磁盘都是独立的,每个节点都只有全部数据的一部分,也只能使用本节点的数据资源。在Greenplum中,需要存储的数据在进入到表时,先进行数据分布的处理工作,将一个表中的数据平均分布到每个节点上,并为每个表指定一个分布列(Distribute Column),之后便根据Hash来分布数据,基于 Shared-Nothing 的原则,Greenplum这样处理可以充分发挥每个节点处IO的处理能力。

Master 节点:简单说就是用来处理客户端请求的,以及把各个节点的计算结果汇总起来返回给客户端。它是整个系统的控制中心和对外的服务接入点,它负责接收用户SQL请求,将SQL生成查询计划并进行并行处理优化,然后将查询计划分配到所有的 Segment 节点并进行处理,协调组织各个Segment节点按照查询计划一步一步地进行并行处理,最后获取到Segment的计算结果,再返回给客户端。Master节点一般只有一个或二个(高可用)。

Segment节点:是Greenplum执行并行任务的并行计算节点,它接收Master的指令进行MPP并行计算,因此所有Segment节点的计算性总和就是整个集群的性能,通过增加Segment节点,可以线性化得增加集群的处理性能和存储容量,Segment节点可以是1~10000个节点。

Interconnect:是Master节点与Segment节点、Segment节点与Segment节点之间进行数据传输的组件,它基于千兆交换机或者万兆交换机实现数据在节点之间的高速传输。是一个非常强大的网络通信组件。

        外部数据在加载到Segment时,采用并行数据流进行加载,直接加载到Segment节点,这项独特的技术是Greenplum的专有技术,保证数据在最短时间内加载到数据库中。

1.4、Greenplum 的优缺点

1优点

1. 数据存储

        采取MPP架构的数据库系统可以对海量数据进行管理。

2. 高并发

        Greenplum利用强大并行处理能力提供并发支持。

3. 线性扩展

        Greenplum 支持数以千、万计的节点扩展。

4. 高性价比

        Greenplum 在普通的x86 Server上就能达到很高的性能,而且维护成本相比同类厂商也低许多,因此性价比很高。

5. 反应速度

        Greenplum通过准实时、实时的数据加载方式,实现数据仓库的实时更新,进而实现动态数据仓库(ADW)。

6. 高可用性

        对于主节点,Greenplum提供Master/Stand by机制进行主节点容错,当主节点发生错误时,可以切换到Stand by节点继续服务。

7. 系统易用

        Greenplum 产品是基于流行的 PostgreSQL 之上开发(站在巨人的肩膀上),几乎所有的PostgreSQL客户端工具及PostgreSQL应用都能运行在Greenplum平台上,在Internet上有着丰富的PostgreSQL资源供用户参考。

2缺点

1. 主从双层架构,并非真正的扁平架构,存在性能瓶颈和SPOF单点故障(通过备用Master实现高可用已解决)。

2. 无法支持数据压缩态下的DML操作,不易于数据的维护和更新。(可进可退,不常用的冷数据可以压缩,要做更新的时候可以先解压缩再做操作)

3. 单个节点上的数据库没有并行和大内存使用能力,必须通过部署多个实例(segment servers)来充分利用系统资源,造成使用和部署很复杂。(MPP 架构单台节点能力有限,可能需要部署多个实例去并行处理数据,区别于 Yarn 的资源共享,任务可以分配给别的节点)

2、Greenplum 数据类型

Greenplum 的安装这里省略,主要记录一下启停命令,防止之后忘记。

  • 使用创建好的 gpadmin 用户,启动 Greenplum:
-- 遇到问题输入y
gpstart
  •  查看集群状态
gpstate -f
  • 关闭集群(需要把客户端先关闭,比如 DataGrip 连接) 
-- 遇到问题输入y 询问等待模式(s 默认) 快速模式(f) 立即模式(i) 输入f
gpstop

2.1、基本数据类型

类型

类比Java

长度

描述

范围

bigint

long

8字节

大范围整数

-9223372036854775808 到 +9223372036854775807

smallint

short

2字节

小范围整数

-32768到+32767

integer(int)

int

4字节

常用整数

-2147483648 到 +2147483647

decimal

可变长

用户指定的精度,精确

小数点前 131072 位;小数点后 16383 位

real

4字节

可变精度,不准确

6位十进制数字精度

double precision

double

8字节

可变精度,不准确

15位十进制数字精度

smallserial

2字节

自增的小范围整数

1到32767

serial

4字节

自增整数

1到2147483647

bigserial

8字节

自增的大范围整数

1到9223372036854775807

character

char

别名char

定长,不足补空白

character varying

别名varchar

变长,有长度限制

text

变长,无长度限制

timestamp

8字节

日期和时间,无时区

4713 BC到294276 AD

timestamp with time zone

8字节

日期和时间,有时区

4713 BC到294276 AD

date

4字节

只用于日期

4713 BC到5874897 AD

boolean

1字节

true/false

money

8字节

货币金额

-92233720368547758.08 到 +92233720368547758.07

下面我们尝试创建一个简单的表并插入数据: 

CREATE TABLE stu(
    id      int,
    name    text,
    age     smallint,
    weight   double precision);

insert into stu values
                       (1,'李大喜',18,80.5),
                       (2,'李元芳',25,88.8);

select * from stu;

注意:建表时会提示 Table doesn't have 'DISTRIBUTED BY' clause -- Using column named 'id' as the Greenplum Database data distribution key for this table. 这是提醒建表时指定分布键和分布策略,默认第一个字段(或主键)和hash策略。

2.2、复杂数据类型

2.2.1、枚举类型

相当于 Java 的 Enum 类型,使用 create type 命令创建;

-- 创建枚举类型
CREATE TYPE season AS ENUM('Spring','Summer','Autumn','Winter');

-- 创建一个带有枚举类型的表
CREATE TABLE user_season(
    name text,
    sea season
);

INSERT INTO user_season
VALUES
       ('春招','Spring'),
       ('秋招','Autumn');

SELECT * FROM user_season;

2.2、几何类型

类型

大小

描述

表现形式

point

16字节

平面中的点

(x,y)

line

32字节

直线

((x1,y1),(x2,y2))

lseg

32字节

线段

((x1,y1),(x2,y2))

box

32字节

矩形

((x1,y1),(x2,y2))

path

16+16n字节

路径(与多边形相似)

((x1,y1),...)

polygon

40+16n字节

多边形

((x1,y1),...)

circle

24字节

<(x,y),r> (圆心和半径)

-- 创建带有几何类型的表
CREATE TABLE shapes(
    id serial PRIMARY KEY , -- 自增主键
    point_col point, -- 点
    line_col line, -- 线
    polygon_col polygon -- 多边形
);

INSERT INTO shapes VALUES
(1,point(1,1),line '[(0,0),(2,2)]',polygon'((0,0),(1,0),(1,1),(0,1))');

-- 根据点去查(不能使用 = )
SELECT * FROM shapes WHERE point_col <-> point(1,1) < 0.0001;
-- 根据直线去查询(可以使用 =)
SELECT * FROM shapes WHERE line_col = line '[(0,0),(2,2)]';
-- 根据多边形去查(必须使用 ~=)
SELECT * FROM shapes WHERE polygon_col ~= polygon '((0,0),(1,0),(1,1),(0,1))';

2.3、网络地址类型

类型

描述

说明

cidr

7或19字节

IPv4 或 IPv6 网络

inet

7或19字节

IPv4 或 IPv6 主机和网络

macaddr

6字节

MAC 地址

-- 创建包含网络地址数据类型的表
create table network_addresses (
    id serial primary key,
    ip_address inet,
    network cidr,
    mac_address macaddr
);

-- 插入数据
insert into network_addresses (ip_address, network, mac_address)
values
('192.168.1.1/24', '192.168.1.0/24', '08:00:2b:01:02:03');

-- 查询数据
select * from network_addresses;

-- 查询特定的 IP 地址
select * from network_addresses where ip_address = inet '192.168.1.1';
select * from network_addresses where host(ip_address) = '192.168.1.1';

-- 查询特定的网络
select * from network_addresses where network = cidr '192.168.1.0/24';

-- 查询特定的 MAC 地址
select * from network_addresses where mac_address = macaddr '08:00:2b:01:02:03';

-- 更新数据
update network_addresses set ip_address = inet '192.168.1.2' where id = 1;

-- 删除数据
delete from network_addresses where id = 1;

2.4、JSON

 数仓中 Maxwell 同步过来的数据就是 json 类型,我们当时是使用结构体来存储的; 

-- json 类型
CREATE TABLE json_demo(
    id serial PRIMARY KEY ,
    data jsonb
);

INSERT INTO json_demo (data) VALUES
('{"name": "李大喜","age": 18,"city": "上海"}');

SELECT * FROM json_demo;

SELECT data->>'name' AS name FROM json_demo; -- 李大喜

注意:这里需要注意 json 段的取值方式; 

2.5、数组类型

        GreenPlum 允许将字段定义成变长的多维数组。数组可以是任何基本类型或用户定义类型,枚举类型或复合类型。

-- 数组类型
CREATE TABLE array_demo(
    id serial PRIMARY KEY ,
    numbers int[]
);

INSERT INTO array_demo (numbers) VALUES
('{1,2,3,4,5,6}');

SELECT * FROM array_demo;
-- gp 的数组下标是从 1 开始的
SELECT numbers[1] FROM array_demo;
-- 将数组展开
SELECT id,unnest(numbers) FROM array_demo;

2.6、复合类型

-- 复合类型
CREATE TYPE student as (
    name text,
    age int,
    sex char,
    grade double precision
);

CREATE TABLE student_demo(
    id serial PRIMARY KEY ,
    student_info student
);

INSERT INTO student_demo (student_info) VALUES
( ( '燕双鹰',20,'男',98.5 ));

SELECT * FROM student_demo;

-- 复合类型必须加括号
SELECT (student_info).age FROM student_demo WHERE (student_info).name = '燕双鹰';

总结

        学习 Greenplum 主要是因为之前接触过另一款 MPP 架构的数据库——StarRocks,但是资料不是那么完善,没有项目能够练习。尽管实习的公司用的就是 StarRocks 引擎,但是除了基本常规的 SQL 查询,建表这些工作轮不到实习生来做。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

让线程再跑一会

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值