Greenplum数据库的日常监测和维护

1、列出当前down的segment节点。

检查方法:

连接到postgres数据库,执行:

SELECT * FROM gp_segment_configuration    
WHERE status <> 'u';    

判断方法:

有返回,表示该segment已经down了。

事件级别:

warning。

如果有mirror节点,不影响使用。

重要程度:

重要。

监控频率:

5-10分钟。

处理方法:

1、检查DOWN segment主机是否正常。

2、检查DOWN segment的primary, mirror节点的pg_log日志。找出原因。

3、如果没有异常,使用gprecoverseg把DOWN的节点拉起来。

2、列出当前处于change tracking的segment节点。

检查方法:

连接到postgres数据库,执行:

SELECT * FROM gp_segment_configuration    
WHERE mode = 'c';    

判断方法:

如果有记录返回,表示有处于change tracking的segment。

事件级别:

warning。

重要程度:

重要

监控频率:

5-10分钟。

处理方法:

1、检查DOWN segment主机是否正常。

2、检查DOWN segment的primary, mirror节点的pg_log日志。找出原因。

3、如果没有异常,使用gprecoverseg把DOWN的节点拉起来。

3、列出当前处于re-syncing状态的segment节点。

检查方法:

连接到postgres数据库,执行:

SELECT * FROM gp_segment_configuration    
WHERE mode = 'r';    

需要加入时间条件。判断是否长时间处于r状态。

判断方法:

如果有记录返回,表示有处于re-syncing的segment。

事件级别:

warning。

重要程度:

重要

监控频率:

5-10分钟。

处理方法:

如果节点很长时间处于re-synched状态。检查SEGMENT的primary, mirror节点的pg_log,排查错误。

4、列出当前角色未处于优先角色的节点的segment节点。

检查方法:

连接到postgres数据库,执行:

SELECT * FROM gp_segment_configuration    
WHERE preferred_role <> role;    

判断方法:

如果有记录返回,表示当前集群可能处于not balanced状态。

事件级别:

warning。

重要程度:

重要

监控频率:

5-10分钟。

处理方法:

如果当前集群处于not balanced状态,某个主机的primary节点可能更多,负担较重,影响性能。

建议找到维护窗口,重启数据库集群。

5、检测所有节点是否可达,确保QD(query dispatching)正常。

检查方法:

连接到postgres数据库,执行:

SELECT gp_segment_id, count(*)    
FROM gp_dist_random('pg_class')    
GROUP BY 1;    

判断方法:

正常情况下,每个节点返回一条记录,如果执行失败,表示有不可达的segment,执行SQL是QD阶段会失败。

事件级别:

critical。

重要程度:

严重

监控频率:

5-10分钟。

处理方法:

如果查询失败,表示某些segment节点的QD异常,这是一个罕见错误。需要检查异常节点(不能触及的segments)的硬件、网络是否正常。

6、列出当前down的segment节点。

检查方法:

连接到postgres数据库,执行:

SELECT pid, state FROM pg_stat_replication;    

判断方法:

如果state不是'STREAMING',或者没有记录返回,那么说明master standby节点异常。

事件级别:

warning。

重要程度:

重要

监控频率:

5-10分钟。

处理方法:

检查master, master standby节点的pg_log是否有异常日志。

如果没有unexpected错误,并且机器正常。那么使用gpinitstandby修复standby。

GPDB 4.2以及以前的版本,需要重启GPDB集群。

7、检查master节点是否up并正常提供服务。

检查方法:

连接到postgres数据库,执行:

SELECT count(*) FROM gp_segment_configuration;    

判断方法:

QUERY正常返回,表示master节点正常。

事件级别:

critical。

重要程度:

严重

监控频率:

5-10分钟。

处理方法:

如果这个QUERY不能正常执行,说明active master节点可能DOWN了。

重试若干次,如果都异常,关闭active master(一定要确保关闭无误),切换到standby master。

8、列出master, segment, standby, mirror状态的其他方法

使用命令查询master, segment, standby, mirror状态

1、master和segment状态

gpstate  
  
或  
  
gpstate -s  

2、segment mirror状态

gpstate -m   

3、primary和mirror mapping状态

gpstate -c  

4、master standby状态

gpstate -f  

 

文章参考:

(1) http://www.manongjc.com/detail/7-txpelphzjegqfwe.html 

(2) https://www.sypopo.com/post/qbQlXX03QZ/

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值