Greenplum实践总结

最新推荐文章于 2024-07-09 11:07:09 发布

hmxz1024

最新推荐文章于 2024-07-09 11:07:09 发布

阅读量1.9k

点赞数

分类专栏： GreenPlum 文章标签： greenplum知识点

本文链接：https://blog.csdn.net/hmxz2nn/article/details/87449340

版权

GreenPlum 专栏收录该内容

19 篇文章 6 订阅

订阅专栏

实际使用greenplum中的一些问题或知识点，做一个汇总，会不断进行更新。

1.对于greenplum，当创建表时，若指定一个primary key，会将其默认设置为索引，此时，当进行大量数据的插入时，由于索引的存在，会导致插入时间变长。
另：当进行大量数据的插入时，需先删除掉索引，待数据插入完成后再建立索引。

2.在greenplum中，外部表不能指定 not null，也不能指定primary key等设置。

3.使用TPC-DS生成测试数据

./dsdgen -DIR /usr/datas -SCALE 1 -TERMINATE N

以上命令用以生成1G测试数据，并将生成的测试存放在/usr/datas下
可以只生成某个表的数据，以加快数据的生成。

./dsdgen -DIR /usr/datas -SCALE 1 -TERMINATE N -table catalog_sales

只生成catalog_sales表

4.查看表中数据是否分布倾斜

select gp_segment_id,count(1) from tablename group by 1;

count(1)和count(*)类似，唯一的区别是，count(1)不统计null字段，而count(*)会统计null字段。

5.postgresql的两种转换方法
使用cast函数

select cast(‘5’ as int),cast(‘2018-10-08’ as date);

使用::表示

select ‘5’::int,’2018-08-08’::date;

6.Postgresql数值类型
boolean：1字节,true or false
整数：只有3种，smallint(2字节)，int(4字节)，bigint(8字节)。
精确的小数类型可用numeric,numeric(m,n),numeric(m)表示。
一个numeric类型的标度是小数部分的位数，而精度是全部数据的位数，也即小数点两边的位数的总和。
numeric：在pg中，如果不带任何精度与标度的声明numeric，则表示可以创建一个任意精度和标度的数值。
numeric(m,n)：精度为m，标度为n
numeric(m)：精度为m，标度为0

Real和double为变精度数据类型，占用空间分别为4字节和8字节。

序列类型：serical和bigserial分别为4字节和8字节的自增整数，有很大的操作范围。

7.postgresql的字符类型

类型	特性
varchar(n)	变长，有长度限制，最大存储字符为1G。存储空间为：4+实际的字符串长度。若没有指定长度n，表示可以存储任意长度的字符串。
char(n)	定长,不足补空白，最大存储字符为1G。存储空间为：4+实际的字符串长度。若没有指定长度n，表示只能存储1字节。
text	变长，无长度限制。

8.postgresql中的时间类型

名字	存储空间	描述	最低值	最高值	分辨率
timestamp[无时区]	8字节	包括日期和时间	4713 BC	5874897AD	1毫秒/14位
timestamp[含时区]	8字节	日期和时间，带时区	4713 BC	5874897AD	1毫秒/14位
interval	12字节	时间间隔	-178000000年	178000000年	1毫秒/14位
date	4字节	只用于日期	4713 BC	32767AD	1天
time[无时区]	8字节	只用于一日内时间	00:00:00	24:00:00	1毫秒/14位

9.表空间
在postgresql中，表空间实际上是为表指定的一个存储目录。在创建数据库、表、索引时就可以指定表空间，从而使得表、索引存储到表空间对应的目录下。

10.使用select * from pg_stat_activity;查看当前活动状态，使用
select pg_terminate_backend(procpid);可以终止某个活动。

11.greenplum中分区与分布的区别
分区是按照字段进行逻辑上的划分，为了减少数据扫描，从而提高查询等操作的效率。
分布是对字段进行物理分区，把数据分散到多个segment，以充分利用每个segment的物理资源，从而提高查询等操作的效率。

12.在生成表数据时，可以使用generate_series函数指定一个生产字段，来插入数据。比如对于数据库test_table，包含3个字段：id,name,blog，使用以下命令：

insert into test_table select generate_series(1,500) as id,’jack’,’xxxxx’;

13.当greenplum集群起不来的时候，可以先查看log中最近有什么操作，来查找集群不能启动的原因。
对于参数修改造成的起不来，可以先修改master节点的postgresql.conf文件，然后使用gpstart -m 命令启动master节点，启动master节点后，通过gpconfig命令修改参数后，执行gpstop -u，然后执行gpstart即可启动集群。

14.在进行插入数据，创建索引，更新表等操作后，应对表进行analyze操作，以更新统计数据，优化后续的查询等操作。

15.在具有索引的表中执行查询时，查看执行计划，有时候会发现并不走索引。造成这种现象的原因有：where条件字段没有和索引字段类型一致；满足条件的行太多等。
Greenplum强制走索引：
关掉seqscan，打开indexscan

set enable_seqscan=off;
set enable_indexscan=on;

16.在greenplum中，当打开optimizer后，对于小查询（毫秒级别的查询），性能会变差，且开启optimizer可能会影响数据加载速率。但当查询比较大时，开启optimzer会有一定的优势。

17.两种聚合方式
hash aggregate
根据group by字段后面的值算出hash值，并根据前面使用的聚合函数在内存中维护对应的列表，几个聚合函数就有几个数组。相同数据量的情况下，聚合字段的重复度越小，使用的内存越大。
group aggregate
先将表中的数据按照group by的字段排序，在对排好序的数据进行全扫描，并进行聚合函数计算。消耗内存基本是恒定的。
选择
在SQL中有大量的聚合函数，group by的字段重复值比较少的时候，应该用group aggregate。

18.greenplum建立列表的一个例子：

create table catalog_sales_column(like catalog_sales) with 
(appendonly = true,compresstype =zlib,compresslevel=4,orientation=column);

19.对于列表的分区，表的每个分区的每一列都会对应一个文件，因此，防止打开的物理文件过多，需要控制分区数目。物理文件数=segments * columns *分区数目

20.遇到一个向表内copy数据时，报invalid byte sequence for encoding “UTF8”的问题。
原因是某个字段中的’\’没有转义，导致导入数据时，沿着\往后进行解析，从而报错。
解决办法：
1.数据从其他数据库导出时，考虑将\字段进行转义。
2.使用copy导入数据时，使用escape命令，将转义字符给替换掉。如将\替换为~。

21.pg执行copy等进行导入时，有时候遇到null字符导入错误问题，这个时候可以使用null ‘NULL’，也就是将数据文件的null字符识别为NULL（注意NULL一定要大写）。
当执行gpfdist等失败时，又找不到原因，可以提取少量数据进行copy，从而更快发现问题。

22.对于简单查询，若突然变得很慢，查看是否是由于打开optimzer的影响。

23.死锁问题定位-示例
1.通过查询pg_locks可以获取到对象的锁信息。

select * from pg_locks where relation=(select oid from pg_class where relname=’test_1’);

2.执行如下命令查出对应的线程号。

select * from pg_stat_activity;

3.根据需要使用函数kill死锁线程释放对应的锁。

select pg_terminate_backend(线程号);

24.对于数据库，若可以在断电前关闭数据库，尽量关闭数据库，以防止断电后恢复出现问题。

hmxz1024

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Greenplum实践总结

实际使用greenplum中的一些问题或知识点，做一个汇总，会不断进行更新。1.对于greenplum，当创建表时，若指定一个primary key，会将其默认设置为索引，此时，当进行大量数据的插入时，由于索引的存在，会导致出书时间变长。另：当进行大量数据的插入时，需先删除掉索引，待数据插入完成后再建立索引。2.在greenplum中，外部表不能指定 not null，也不能指定primar...
复制链接

扫一扫

专栏目录