缩短MTTR,在混合环境中更快找到根本问题
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, LogicMonitor, Blame Game, Hybrid Observability, Cloud Journey, Noise Reduction, Generative Ai]
导读
根本原因是什么?您是否面临着NetOps、CloudOps或DevOps之间相互指责的情况?担心您最新的工作负载迁移和AI项目可能意味着需要监控更多内容、产生更多噪音警报以及更多成本需要控制?找出根本原因不必像在混合稻草堆中寻找针一样困难。在本次会议中,了解LogicMonitor的AI驱动可观测性如何在规划、执行到迁移后优化的每个阶段推动现代化。此外,还将听到Synoptek如何将云成本降低20%并缩短平均修复时间(MTTR),自动发现新的亚马逊云科技资源,并专注于重要警报。本演示由亚马逊云科技合作伙伴LogicMonitor为您呈现。
演讲精华
以下是小编为您整理的本次演讲的精华。
责备文化是IT运营中一个普遍存在的问题,这是Chris在亚马逊云科技 re:Invent 2024活动上演讲的重点。他回忆了自己在IBM工作时的一段经历,当时团队在出现问题时,会优先证明自己的清白,而不是解决问题。这种相互指责的文化导致了平均修复时间(MTTR)的延长,这是IT运营中一个关键指标。
为了提供全面的视角,Chris介绍了来自Synoptech的Mike和Nittin。Synoptech是一家管理服务提供商(MSP),负责为超过1200个客户跨15个地理位置进行主动监控和防止宕机。Nittin解释说,作为一家MSP,Synoptech的主要职责包括持续跟踪客户系统、确保最小化中断,以及管理与工作负载迁移、升级和未来对准相关的战略决策。“我们一直在持续跟踪客户的系统,确保防止任何形式的宕机或中断。”
在采用LogicMonitor之前,Synoptech面临着多方面的挑战。由于客户群体多样化,他们不得不维护多种监控工具,每种工具都需要特定的技能和跨不同班次的员工配备。这种方式不仅增加了运营成本,而且还阻碍了他们跨时区和技能组提供一致的服务水平。Nittin详细说明道:“如果你有一千多个客户,那么如果你举个例子,我需要在不同的班次中配备具有相同技能的一两名工程师,这样我们就必须在那里进行重复工作。”
代表Synoptech运营构建方面的Mike证实了Nittin的说法。他描述了“从前的时代”,当时存在着分散的监控工具,如SolarWinds、微软的System Center Operations Manager(SCOM)和Nimbus。这种分散导致了许多问题,包括在界面之间切换、工具之间的警报冲突、过多无关警报的噪音,以及缺乏对云成本和资源交互的可见性。Mike回忆道:“有时,由于工程师当时正在观察另一个工具,一个工具的警报会持续很长时间。”
引入LogicMonitor标志着Synoptech的一个重大转折点。Chris解释说,LogicMonitor的“基于AI的混合可观测性”愿景旨在通过在变更前、变更期间和变更后测量性能,降低云迁移的风险。随着混合环境已经成为常态而不是过渡状态,LogicMonitor平台可以从任何来源(无论是本地、云还是容器化)摄取指标、事件、日志和跟踪(MELT)数据。
LogicMonitor的一个关键优势是其无代理架构,它利用轻量级的“收集器”而不会消耗系统资源。这种方法简化了新客户的入门流程,使Synoptech能够快速获得对云利用率的实时可见性,并通过合理调配实现成本节约。Mike确认道:“我们使用了基础AI功能、动态阈值和异常检测,真正减少了警报数量,但Neaten的团队一直告诉我,仍然有很多警报。所以你可以将数量从数十万减少到数千,是的,数千,数万,所以还有更多工作要做。”
Chris强调了LogicMonitor提供观点性数据视图的能力,减少噪音并使一级响应人员能够处理更高级别的问题。动态阈值、异常检测和日志分析等功能简化了识别真正问题的过程,减轻了熟练工程师的负担。Mike分享了一个例子:“另一个很棒的功能是日志分析,它允许你在视觉上缩小针在干草堆中的位置。你不必在日志中进行grep或控制F。你不必学习另一种查询语言。你可以点击日志信息,特别是左侧屏幕截图的左侧,我猜我看不到右侧。我可以看到左侧吗?是的,你可以点击缩小你的过滤器,LogicMonitor自己构建查询,然后显示结果。”
LogicMonitor解决方案的一个关键组成部分是“Edwin AI”,这是一个下一代AIOps平台。与传统的基于规则的事件管理系统不同,Edwin AI利用基础AI模型,可以将警报噪音减少高达80%,而无需自定义规则。Mike确认道:“因此,当我们开始使用Edwin来减少警报数量时,我们取得了非常好的效果。我是说,这是一个很大的数字,无论是在屏幕上还是在运营上,这都是一个很大的数字,而且这几乎是开箱即用的,没有任何配置或调整。”
此外,Edwin AI提供了一个生成式AI助手,能够通过分析可观测性数据并结合来自Wiki和IT服务管理(ITSM)系统等来源的部落知识,用简单的语言解释问题。
正如Chris所描述的,最后一个阶段是通过准确确定根本原因和解决方案来自动化重复性任务,让工程师专注于更高价值的工作。Mike确认Edwin AI已经显著减少了Synoptech的警报量,同时提高了响应时间和为客户提供的服务水平。
Nittin详细阐述了Synoptech在实施LogicMonitor后获得的切实利益。通过将监控整合到一个单一窗口中,他们的工程师不再需要重复地持续监控多个工具以获取警报。这使他们能够重新分配熟练资源,专注于更加主动、战略性和业务相关的工作,如DevOps运营支持。Nittin表示:“首先,我们那些被指派持续监控警报的工程师不再需要这样做,因为我们已经摆脱了这种重复性工作。这并不意味着他们没有工作或将被解雇。我们会将他们分配到更加主动、出色的业务战略工作中,我们可以在那里安排他们。”
此外,Edwin AI提供的自动化根本原因分析和解决方案建议大大减少了人工工作量,最小化了人为错误的可能性,并确保了一致的高质量响应。这反过来直接提高了Synoptech为客户提供的服务级别协议(SLA),增强了他们在管理服务市场的竞争优势。Nittin确认道:“第三个也是最重要的一点,对我们的客户来说更为重要,服务水平协议将比我们之前采用这一解决方案之前要好得多。”
Nittin强调的一个显著优势是LogicMonitor能够提供云资源利用率的整体视图,使Synoptech能够就合理调配和优化客户的云足迹做出明智决策。这种主动方式为Synoptech的客户节省了大量成本,云支出减少了20%。Nittin详细说明道:“LogicMonitor为我们提供了更有信心的实时数据,我们将应用这些数据来做出合理调配或重新计算规模等决策,从而实现优化。所以这个平台会提出建议。”
Nittin进一步解释了Synoptech在LogicMonitor之前为客户管理云资源时面临的挑战:“很多时候,客户级别的项目团队在部署生产应用程序时,他们会选择安全一些。他们不想出任何差错,所以他们会双重配置规模,部署最大的规模。在上线之前,没有人知道实际需求。”
这种缺乏可见性往往导致过度配置资源作为预防措施,从而增加了Synoptech客户的云成本。然而,通过LogicMonitor的实时监控和分析功能,Synoptech现在可以根据实际利用模式做出数据驱动的决策,合理调配资源,优化成本,而不会影响性能。
Chris强调,AI在IT运营中的真正力量在于让团队专注于更高价值的角色,解决了对于被取代的担忧。通过自动化重复性任务并提供智能见解,LogicMonitor的Edwin AI等AI解决方案使工程师能够专注于更加战略性和复杂的挑战,促进持续学习和专业成长。
在整个演讲过程中,Chris和Synoptech的代表们强调了解决“责备文化”并采用协作式问题解决方式的重要性。通过利用LogicMonitor等基于AI的平台,组织可以摆脱相互指责的循环,转而专注于加快混合环境中的平均修复时间(MTTR),最终提供卓越的服务水平和客户体验。
最后,Chris鼓励与会者探索LogicMonitor的人工智能驱动解决方案,亲身体验它们对IT运营、云管理和整体业务敏捷性的变革性影响。正如Synoptech的成功案例所示,IT运营的未来在于利用人工智能的力量,在日益复杂的混合技术环境中推动效率、成本优化和持续改进。
下面是一些演讲现场的精彩瞬间:
在reInvent2024大会上,演讲者幽默地承认观众在现场直播期间可以切换频道,并承诺那些能说服他人收看的人会获得奖励。
演讲者概述了将要涉及的主要主题,包括IT运维的问题空间、混合可观测性、云之旅、Synoptech的经验以及AI的作用。
LogicMonitor的无代理架构通过消除代理的需求来减轻现有基础设施的负担,代理可能会消耗资源并可能影响系统性能。
LogicMonitor的动态阈值功能可以智能识别异常行为,当指标偏离预期的正常范围时,会向团队发出警报。
一个情感分析可视化工具,突出显示日志中的错误、警告和其他问题,使团队能够快速识别和解决跨环境的问题。
亚马逊云科技首席执行官强调采取主动安全措施的重要性,并以响应烟雾警报以防火灾失控的比喻来说明。
演讲者幽默地邀请观众前往展览区,尽管距离很远,并承诺会有令人兴奋的演示和奖品,同时也向观众开放提问环节。
总结
在云迁移和混合IT环境时代,组织面临着监控复杂系统和高效解决问题的挑战。LogicMonitor是一个由AI驱动的混合可观测性平台,旨在通过提供跨本地和云资源的统一视图、减少警报噪音以及提供AI驱动的洞见来加快问题解决,从而应对这些挑战。
传统的“相互指责”文化和孤立的监控工具往往会导致更长的平均修复时间(MTTR)和低效的故障排查。LogicMonitor的无代理架构、动态阈值和异常检测功能有助于简化监控并减少警报疲劳。此外,其AI驱动的助手Edwin AI可以分析可观测性数据、知识库和历史上下文,提供可操作的见解并自动化重复性任务,使团队能够专注于更高价值的工作。
作为一家托管服务提供商,Synoptech从采用LogicMonitor中获得了显著的好处,包括警报量减少80%、云资源成本节省20%以及改善的服务级别协议。通过利用AI驱动的洞见,Synoptech可以主动解决问题、提高运营效率,并使团队能够着手更多战略性举措。
随着AI不断重塑IT运营领域,组织必须拥抱这一变革性技术才能保持竞争力。LogicMonitor的AI驱动平台为前进之路提供了支持,使团队能够提升能力、加快问题解决并在混合云计算时代推动更好的业务成果。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。