Greenplum数据库的日常监测和维护

最新推荐文章于 2023-07-16 11:07:44 发布

inrgihc

最新推荐文章于 2023-07-16 11:07:44 发布

阅读量3.1k

点赞数

分类专栏： Greenplum

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/inrgihc/article/details/107343596

版权

Greenplum 专栏收录该内容

19 篇文章 6 订阅

订阅专栏

1、列出当前down的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT * FROM gp_segment_configuration    
WHERE status <> 'u';

判断方法：

有返回，表示该segment已经down了。

事件级别：

warning。

如果有mirror节点，不影响使用。

重要程度：

重要。

监控频率：

5-10分钟。

处理方法：

1、检查DOWN segment主机是否正常。

2、检查DOWN segment的primary, mirror节点的pg_log日志。找出原因。

3、如果没有异常，使用gprecoverseg把DOWN的节点拉起来。

2、列出当前处于change tracking的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT * FROM gp_segment_configuration    
WHERE mode = 'c';

判断方法：

如果有记录返回，表示有处于change tracking的segment。

事件级别：

warning。

重要程度：

重要

监控频率：

5-10分钟。

处理方法：

1、检查DOWN segment主机是否正常。

2、检查DOWN segment的primary, mirror节点的pg_log日志。找出原因。

3、如果没有异常，使用gprecoverseg把DOWN的节点拉起来。

3、列出当前处于re-syncing状态的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT * FROM gp_segment_configuration    
WHERE mode = 'r';

需要加入时间条件。判断是否长时间处于r状态。

判断方法：

如果有记录返回，表示有处于re-syncing的segment。

事件级别：

warning。

重要程度：

重要

监控频率：

5-10分钟。

处理方法：

如果节点很长时间处于re-synched状态。检查SEGMENT的primary, mirror节点的pg_log，排查错误。

4、列出当前角色未处于优先角色的节点的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT * FROM gp_segment_configuration    
WHERE preferred_role <> role;

判断方法：

如果有记录返回，表示当前集群可能处于not balanced状态。

事件级别：

warning。

重要程度：

重要

监控频率：

5-10分钟。

处理方法：

如果当前集群处于not balanced状态，某个主机的primary节点可能更多，负担较重，影响性能。

建议找到维护窗口，重启数据库集群。

5、检测所有节点是否可达，确保QD(query dispatching)正常。

检查方法：

连接到postgres数据库，执行：

SELECT gp_segment_id, count(*)    
FROM gp_dist_random('pg_class')    
GROUP BY 1;

判断方法：

正常情况下，每个节点返回一条记录，如果执行失败，表示有不可达的segment，执行SQL是QD阶段会失败。

事件级别：

critical。

重要程度：

严重

监控频率：

5-10分钟。

处理方法：

如果查询失败，表示某些segment节点的QD异常，这是一个罕见错误。需要检查异常节点(不能触及的segments)的硬件、网络是否正常。

6、列出当前down的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT pid, state FROM pg_stat_replication;

判断方法：

如果state不是'STREAMING'，或者没有记录返回，那么说明master standby节点异常。

事件级别：

warning。

重要程度：

重要

监控频率：

5-10分钟。

处理方法：

检查master, master standby节点的pg_log是否有异常日志。

如果没有unexpected错误，并且机器正常。那么使用gpinitstandby修复standby。

GPDB 4.2以及以前的版本，需要重启GPDB集群。

7、检查master节点是否up并正常提供服务。

检查方法：

连接到postgres数据库，执行：

SELECT count(*) FROM gp_segment_configuration;

判断方法：

QUERY正常返回，表示master节点正常。

事件级别：

critical。

重要程度：

严重

监控频率：

5-10分钟。

处理方法：

如果这个QUERY不能正常执行，说明active master节点可能DOWN了。

重试若干次，如果都异常，关闭active master（一定要确保关闭无误），切换到standby master。

8、列出master, segment, standby, mirror状态的其他方法

使用命令查询master, segment, standby, mirror状态

1、master和segment状态

gpstate  
  
或  
  
gpstate -s

2、segment mirror状态

gpstate -m

3、primary和mirror mapping状态

gpstate -c

4、master standby状态

gpstate -f

文章参考：

(1) http://www.manongjc.com/detail/7-txpelphzjegqfwe.html

(2) https://www.sypopo.com/post/qbQlXX03QZ/

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Greenplum数据库的日常监测和维护

1、列出当前down的segment节点。检查方法：连接到postgres数据库，执行：SELECT * FROM gp_segment_configuration WHERE status <> 'u'; 判断方法：有返回，表示该segment已经down了。事件级别：warning。如果有mirror节点，不影响使用。重要程度：重要。监控频率：5-10分钟。处理方法：1、检查DOWN segment主机是否正常。2
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。