- 博客(1)
- 资源 (22)
- 收藏
- 关注
原创 分布式集群监控方案
一、调研背景 XGboost on Yarn已正式接入流量,目前需要对XGboost集群进行有效监控。为了保证系统的稳定性,可靠性,可运维性。 掌控集群的核心性能指标,了解集群的性能表现; 集群出现问题时及时报警,便于同学及时修复问题; 集群重要指标值异常时进行预警,将问题扼杀在摇篮中,不用等集群真正不可用时才采取行动; 当集群出现问题时,监控系统可以帮助我们更快的定位问题和解决问题。二、
2017-11-28 16:24:39 5676
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人