Telltale:看Netflix如何简化应用程序监控体系

Netflix推出Telltale系统,旨在解决应用程序监控的痛点,提供无需频繁调整警报配置的智能监控解决方案。Telltale综合多种数据源,创建应用程序健康模型,通过智能监控和警报,提升故障诊断效率,目前监控超过100个生产端应用。
摘要由CSDN通过智能技术生成

为了解决流媒体平台应用程序监控的诸多痛点:警报太多、滚动屏幕太多、配置和维护太多......Netflix推出了Telltale —— 一个建立在“用不着不断调整警报配置”前提上的应用程序监控系统。

作者:Andrei Ushakov, Seth Katz, Janak Ramachandran, Jeff Butsch, Peter Lau, Ram Vaithilingam, and Greg Burrell

原文链接:https://netflixtechblog.com/telltale-netflix-application-monitoring-simplified-5c08bfa780ba

01

Netflix的愿景

半夜,警报忽然被拉响,你从睡梦中惊醒,发现是一个度量标准跨过了限定的阈值。半梦半醒间,你迷迷糊糊地想,“这是真的出现了什么严重的问题吗? 还是只是一个有待调整的(小小的)预警而已? 上一次有人调整我们的警报阈值是什么时候?也许只是因为上下游服务出了什么问题? ”。

但无论如何这是一个非常重要的应用程序,所以你不得不把自己从床上拽起来,打开你的笔记本电脑,然后开始浏览dashboard以获取更多信息。你还不能确信这是一个真正严重的问题,但你也意识到当自己在茫茫数据中寻找线索的时候,时间正在飞速流逝。

有效运作 Netflix 服务对该平台的用户体验至关重要。毕竟当用户坐下来看《Tiger King》(Netflix在疫情期间大火的一部自制剧)时,他只希望这部剧能够流畅地播放(不要出其他任何幺蛾子)

《Tiger King》海报

多年来,Netflix从24小时随时待命的工程师那里学到了应用程序监控的痛点: 警报太多、滚动屏幕太多、配置和维护太多。流媒体平台的播放团队需要一个能够使他们快速诊断和补救问题的监控系统,对他们来说,意外发生时的每一秒都是非常宝贵的。

而Netflix发现自己的Node team也需要一个能够助力小规模团队运行一系列大型应用的强大系统。

为此,Netflix创建了 Telltale

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值