为了解决流媒体平台应用程序监控的诸多痛点:警报太多、滚动屏幕太多、配置和维护太多......Netflix推出了Telltale —— 一个建立在“用不着不断调整警报配置”前提上的应用程序监控系统。
作者:Andrei Ushakov, Seth Katz, Janak Ramachandran, Jeff Butsch, Peter Lau, Ram Vaithilingam, and Greg Burrell
原文链接:https://netflixtechblog.com/telltale-netflix-application-monitoring-simplified-5c08bfa780ba
01
Netflix的愿景
半夜,警报忽然被拉响,你从睡梦中惊醒,发现是一个度量标准跨过了限定的阈值。半梦半醒间,你迷迷糊糊地想,“这是真的出现了什么严重的问题吗? 还是只是一个有待调整的(小小的)预警而已? 上一次有人调整我们的警报阈值是什么时候?也许只是因为上下游服务出了什么问题? ”。
但无论如何这是一个非常重要的应用程序,所以你不得不把自己从床上拽起来,打开你的笔记本电脑,然后开始浏览dashboard以获取更多信息。你还不能确信这是一个真正严重的问题,但你也意识到当自己在茫茫数据中寻找线索的时候,时间正在飞速流逝。
有效运作 Netflix 服务对该平台的用户体验至关重要。毕竟当用户坐下来看《Tiger King》(Netflix在疫情期间大火的一部自制剧)时,他只希望这部剧能够流畅地播放(不要出其他任何幺蛾子)。
《Tiger King》海报
多年来,Netflix从24小时随时待命的工程师那里学到了应用程序监控的痛点: 警报太多、滚动屏幕太多、配置和维护太多。流媒体平台的播放团队需要一个能够使他们快速诊断和补救问题的监控系统,对他们来说,意外发生时的每一秒都是非常宝贵的。
而Netflix发现自己的Node team也需要一个能够助力小规模团队运行一系列大型应用的强大系统。
为此,Netflix创建了 Telltale。