Haystack:GitHub的异常监控工具

对于GitHub而言稳定性和性能是非常重要的,但是和其他大部分软件应用程序一样,它也会产生异常,从Git超时这种系统级的错误到JavaScript错误这种应用级的错误都会发生,这就需要一种方式能够在错误发生的时候尽快地识别它们,然后寻找最合适的团队或者个人去处理,最终实现错误的快速响应。而Haystack就是GitHub应对这一问题的钥匙。

\\

1.png

\\

Haystack是GitHub内部的一个开发了6年的异常追踪程序,它能够持续地监控所有应用程序的健康状况,同时具备异常探测功能,GitHub使用它来监控几乎所有的面向用户的特性,包括桌面应用程序。下面是Haystack的一个典型应用场景:

\\

首先,当某个工程师通过chatops部署了新程序的时候,Hubot就会向其推送一条包含异常流水(firehose)链接的消息,通过该链接工程师能够查看新程序部署之后产生的异常信息。

\\

2.png

\\

之后,Haystack会通过一些简单的规则进行异常探测,防止不当部署和典型错误行为的发生。通过获取最后一个小时异常数的直方图Haystack能够判定最后时刻的异常数是否超出了配置的标准分数(z-score)。

\\

3.png

\\

如果发现异常数有提高,Hubot就会发送一个消息通知最后一个部署程序的工程师进行处理。

\\

4.png

\\

在发送的消息中还会包含一些对应用程序当前状态的简要分析,工程师可以通过Haystack的仪表盘查看与每条分析内容相关的详细信息,进而不断追溯并定位问题出现的原因。

\\

5.png

\\

6.png

\\

最后,如果工程师能够解决问题,他们可以创建一个拉请求(Pull Request)或者问题,并将链接拖放到Haystack让其自动地创建问题与追踪信息之间的交叉引用,以便于工程师之后在这些信息之间来回跳转。另外,如果将来类似的问题再次发生,那么工程师能够通过Haystack查看之前对该问题的讨论以及解决的方法。

\\

总的来说,GitHub能够通过Haystack了解系统发生了什么事情,什么时候发生的,应该通知哪个团队,应该从哪入手解决问题。该系统从2009年开始就已经存在了,在最近几年里GitHub又对其做了大量的改进,但是由于很多改进与一些其他的内部应用程序紧密相关,所以到目前为止Haystack依然无法开源,即便如此GitHub的这种问题处理模式依然有值得借鉴和思考的地方。如果你想了解更多与Haystack相关的信息,请点击这里

\\\\

感谢郭蕾对本文的审校。

\

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群\"InfoQ好读者\")。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值