一、引言
(一)传统 IT 运维模式的困境
在当今数字化飞速发展的时代,企业对信息技术系统的依赖程度与日俱增,然而传统的 IT 运维模式却逐渐显现出疲态。传统 IT 运维大多依赖人工监控和手动处理问题,运维人员需要时刻盯着各类系统指标,凭借经验去判断是否出现异常,这种方式在面对如今复杂多变且规模庞大的业务需求时,显得力不从心。
例如,随着企业数字化转型,应用系统数量大幅增加,业务规模不断扩大使得系统细化、组件增多,微服务架构的推广更是让运维节点变得极为繁多。这就导致 IT 部门运维人员需要管理的服务器、容器等资源数量呈爆发式增长,传统依靠手工的运维方式很难应对如此大规模的管理需求,最终造成运维效率低下,管理成本也不断攀升。
而且,用户对 IT 资源了解得越来越多,相应地对 IT 服务要求也日益提高,比如期望业务流程简洁规范、操作过程流畅、界面美观以及系统功能健壮等,很显然传统 IT 运维方式已无法跟上业务快速发展的脚步。此外,企业数字化转型后,各级员工使用信息化系统更加频繁,对服务的需求增多且差异较大,传统运维模式也很难满足这么多样化的需求。所以,引入智能化工具和技术,实现自动化的运维管理,已经成为企业提升运维水平的必然选择。
(二)AI 技术在 IT 运维异常检测中的重要性
AI 技术在 IT 运维异常检测方面正发挥着越来越关键的作用。它能够对运维流程进行深度优化,极大地提升运维效率,让整个系统运行得更加顺畅,并且能有效增强系统的可靠性,为业务的持续稳定开展保驾护航。
在实际的运维过程中,会产生海量的数据,像性能指标、日志文件、事件记录等等,AI 技术可以通过机器学习算法对这些历史数据进行分析,进而实时监控关键性能指标。凭借强大的数据分析和模式识别能力,它能够发现那些人工难以察觉的潜在异常行为。例如,基于机器学习的模型可以通过对日志数据的学习,自动发现系统行为与正常模式之间的细微偏差,提前预测潜在故障,及时发出预警,以便运维人员能尽早介入处理。
不仅如此,当检测到异常情况后,智能系统还可以按照预先设定好的策略,自动执行修复操作,像重启服务、清除缓存或者回滚配置更改等常见的故障排除步骤;或者为运维人员提供详细的诊断信息,辅助他们更快速、精准地解决问题,减少系统停机时间,确保业务连续性不受影响。总之,AI 技术的应用为 IT 运维异常检测带来了全新的思路和高效的解决方案,是推动智能化运维发展的核心力量。
二、常用的 AI 技术手段
(一)数据收集与处理
在 IT 运维的异常检测中,数据收集与处理是基础且关键的环节。首先,要确保能够从各类系统和应用程序中全面收集数据,像是服务器的性能指标,像 CPU 使用率、内存占用、磁盘 I/O 等,还有应用程序产生的日志文件,以及各类事件记录等,这些都是重要的数据来源。
例如,对于一个电商平台的运维来说,服务器在处理大量用户订单、页面浏览等操作时,其 CPU 使用率会随着业务量的波动而变化,这些实时的性能指标数据能反映系统的运行状态;而用户登录、下单等操作产生的日志文件,则记录了详细的行为信息,有助于分析是否存在异常访问等情况。
数据的质量和完整性对后续的分析起着决定性作用。如果收集到的数据存在大量缺失值、错误值或者数据不完整,那么基于这些数据进行的分析和建模就可能得出不准确的结果。所以,在收集数据过程中,要注意数据的准确性校验,保证数据能真实反映系统的实际情况。同时,还要考虑数据的合规性与安全性,遵循相关法律法规,防止数据泄露和被篡改等问题出现。
(二)特征工程
收集到原始数据后,需要通过特征工程将其转化为机器学习模型能够理解的格式。这一过程包含多个重要步骤。
数据清洗是首要任务,比如处理缺失值,对于不重要的变量或行中包含的缺失值,可以选择直接删除;也能用均值、中位数、众数等统计值或者通过插值法、预测模型对缺失值进行填补;若缺失本身具有某种特殊意义,还可将其作为一种类别处理。对于异常值,可借助箱线图、Z 分数等方法来识别,对于明确不合理的异常值直接删除,或者对其进行调整使其回归到合理范围。
接着是特征选择,要从原始数据里挑选出最相关的特征。可以运用统计方法,像相关性分析,了解特征与目标之间的关联程度;也可以基于模型的方法,例如决策树、随机森林等,依据模型计算出的特征重要性来筛选;还能采用基于特征重要性的方法,如 GBDT 等。通过合理选择特征,能够降低数据维度、减少噪声和冗余信息,进而提升模型的性能与泛化能力。
特征变换也不可或缺,常见的操作有标准化,即将数据转化为均值为 0、方差为 1 的正态分布,适用于回归分析和很多机器学习模型;还有归一化,把数据缩放到 0 和 1 之间,适合有范围限制的模型。另外,像对数变换可降低数据的偏度,多项式特征扩展、离散化、独热编码等操作,也能增加模型的表达能力。
最后是特征构建,通过对原始数据进行组合、计算和衍生,生成新的特征,这往往需要结合具体的领域知识来进行,从而为模型提供更有价值的输入信息。
(三)模型训练与调优
选择合适的机器学习算法对于异常检测至关重要,常见的有决策树、随机森林、神经网络等。决策树算法简单直观,通过对数据特征进行层层划分来构建决策树模型,能够处理离散型和连续型数据;随机森林则是基于多个决策树的集成学习算法,能有效降低模型的方差,提高模型的泛化能力和稳定性;神经网络具有强大的非线性拟合能力,适合处理复杂的数据模式和关系。
在确定好算法后,要使用历史数据进行模型训练。例如,将过去一段时间内收集到的系统性能指标数据、日志文件等作为训练集,让模型学习其中正常和异常的模式。不过,模型一开始训练得到的性能往往并非最优,需要通过持续的测试和调整来优化。
可以采用不同的训练方法,像批量训练,将整个数据集分成若干批次,在每个批次上进行完整的前向和后向传播更新模型参数,它能高效利用硬件资源,但处理大数据集时可能对内存要求较高;随机梯度下降每次仅用一个样本更新模型参数,内存占用少却更新不稳定、收敛速度慢;小批量梯度下降结合了两者优点,在稳定性和收敛速度之间取得平衡。同时,还有多种优化方法可供选择,比如梯度下降法通过计算损失函数的梯度来更新参数,不过可能陷入局部最优且收敛速度慢;动量法加入动量利用之前梯度的累积,减少震荡加速收敛;Adam 结合了动量法和 RMSprop 的优点,自适应调整学习率,收敛速度快且适应性强等。根据具体的数据量、模型复杂度以及任务要求等因素,合理选择训练和优化方法,能不断提升模型性能,使其更好地适应异常检测任务。
(四)异常检测与预警
当模型训练好后,便可以利用它对实时数据进行监控。比如在一个大型企业的 IT 系统中,实时获取服务器的各项性能指标数据,将其输入到训练好的模型里。模型会依据学习到的正常模式,对实时传入的数据进行分析判断。
一旦检测到数据中出现与正常模式偏离较大的异常行为,系统必须要及时发出预警。这个预警机制可以通过多种方式实现,比如向运维人员发送邮件、短信通知,或者在运维管理平台上弹出醒目的告警提示框等。同时,要启动相应的应对措施,像自动记录异常发生时的相关数据,便于后续分析原因;如果是涉及服务故障的异常,可能要及时通知相关业务部门做好应对准备等。及时的预警和应对措施能够最大限度地减少异常情况对业务系统造成的影响,保障业务的正常运行。
(五)自动化修复策略
为了更高效地应对异常情况,设计并实施自动化修复流程是很有必要的。常见的自动化修复步骤包含很多方面,例如当服务出现故障时,自动重启服务,像一些 Web 应用服务器在出现响应超时等异常时,通过预设的脚本自动重启,往往能快速恢复正常运行;当缓存数据过多可能影响系统性能时,自动清除缓存,释放内存资源,让系统重新高效运转;又或者在配置更改后出现问题时,能够自动回滚配置更改,恢复到之前稳定的配置状态。
这些无人干预下的故障排除步骤,可以基于事先设定好的规则和策略来执行。通过编写自动化脚本、利用运维自动化工具等方式,让系统在检测到特定异常时,自动按照预设流程进行修复操作,减少对人工干预的依赖,提高故障修复的速度和效率,进一步提升整个 IT 运维的自动化水平和系统的可靠性。
(六)持续学习与优化
智能化的运维系统需要具备自我学习和适应的能力。随着业务的发展、系统的更新以及外部环境的变化等,会不断出现新的情况和数据模式。
例如,企业上线了新的业务功能,对应的 IT 系统产生的数据特征就可能发生变化;或者随着网络环境的升级,服务器性能指标的正常范围也可能有所改变。此时,运维系统中的模型要能够根据这些新情况,不断更新、优化自身。
可以定期用新的数据重新训练模型,让模型学习到最新的正常和异常模式;也可以根据模型在实际应用中的表现,比如误报率、漏报率等指标情况,针对性地调整模型的参数、特征或者算法等,从而提高模型检测的准确性和效率,使其始终能在不断变化的 IT 运维环境中,有效地发挥异常检测和保障系统稳定运行的作用。
三、AI 技术在 IT 运维异常检测的应用案例
(一)航空行业客户案例
在航空行业,有这样一位客户,其业务应用系统每天都会产生海量的日志数据,这些数据包含了从航班预订、值机、登机到飞行过程中各类系统运行的详细记录等众多关键信息。然而,面对如此庞大且繁杂的数据,传统的运维方式很难从中及时、精准地发现异常情况,这对保障航班相关业务的稳定运行带来了极大挑战。
云智慧针对这一情况,为该客户采用了先进的 AI 技术助力其 IT 运维异常检测工作。首先,通过智能的数据收集与处理技术,全面整合来自不同业务系统、不同设备端的日志数据,确保数据的完整性和准确性,为后续分析打下坚实基础。
接着,运用特征工程对收集到的数据进行深度挖掘和转化,筛选出与业务异常关联性最强的关键特征,比如特定时间段内航班预订系统响应时间的变化特征、登机手续办理环节数据交互的特征等。
然后,基于合适的机器学习算法进行模型训练与调优,让模型学习历史正常数据模式以及曾经出现过的异常数据模式。例如,当遇到恶劣天气导致大量航班延误,进而影响到相关业务系统出现异常波动时,模型就能通过学习这些情况,识别出类似的潜在异常模式。
在实际应用中,一旦业务系统运行数据出现偏离正常模式的情况,云智慧的这套方案就能迅速实现业务异常预警。并且可以实时分析异常数据,定位到具体是哪个环节、哪项业务出现了问题,是值机系统的网络连接故障,还是航班调度系统的数据传输异常等。通过这样的方式,帮助该航空行业客户大大提升了运维效率,有效减少了因系统异常导致的航班业务受影响的情况,保障了旅客出行的顺畅以及航空公司运营的稳定。
(二)金融行业客户案例
金融行业的系统向来复杂,涉及众多的业务模块,像银行的储蓄、贷款、理财业务,证券的交易、结算业务等,而且每天都会产生海量的数据,包含客户交易记录、资金流水、市场行情数据等。对于这样复杂且数据量庞大的系统环境,传统运维手段在异常检测方面显得力不从心,很难快速、准确地定位关键业务指标和体验指标中的异常情况。
云智慧为金融行业的这位客户打造了一套定制化方案,先是建立起业务与 IT 统一视图,将繁杂的业务逻辑与背后的 IT 系统架构进行深度整合关联,让运维人员能够站在业务角度更清晰地看到 IT 系统各部分的运行状况。
在数据收集方面,全面覆盖各类业务和 IT 系统产生的数据,无论是核心交易系统的性能指标,还是周边辅助系统的日志信息,都一一收集整合。然后利用特征工程筛选出与关键业务指标紧密相关的特征,例如交易成功率、交易响应时间、资金到账及时性等指标对应的特征数据。
通过精心选择合适的机器学习模型,并经过大量历史数据的训练与反复调优,使其能够精准地检测出关键业务指标和体验指标的异常情况。比如,在证券交易高峰期,如果出现交易卡顿、延迟等异常,系统就能迅速检测出来,并及时发出预警,让运维人员可以快速响应,排查是网络带宽问题、服务器负载过高问题还是软件系统的故障等原因导致。
借助这套方案,助力该金融行业客户提升了运营和管理效率,降低了因系统异常可能带来的金融风险,保障了客户的交易体验以及金融业务的平稳开展。
(三)药企客户案例
随着药企业务的不断发展,其规模逐渐扩大,涉及的业务范围也越来越广,从药品研发、生产制造到销售配送等各个环节都高度依赖 IT 系统的支持。然而,在这个过程中,IT 运维面临着诸多棘手的问题。
一方面,业务系统不断增多且日益复杂,不同系统之间的数据交互频繁,导致每天产生的数据量剧增,运维人员需要监控和管理的数据维度大幅增加。例如,药品研发过程中的实验数据管理系统、生产线上的自动化控制系统以及销售端的客户关系管理系统等,每个系统都有大量的数据需要关注。
另一方面,告警风暴成为了常态,各个系统一旦出现一点小波动,就可能触发大量的告警信息,运维人员往往陷入在海量的告警中,很难分辨出哪些是真正影响业务关键环节的重要告警,哪些只是无关紧要的误报。而且,由于业务的特殊性,药企对于 IT 系统的稳定性要求极高,任何长时间的系统故障都可能影响药品的生产进度、销售交付等,进而带来较大的经济损失和市场影响。
这些问题的出现,迫切需要一种更加智能、高效的方式来进行 IT 运维异常检测,而 AI 技术的应用也就成为了解决这些难题的关键所在,后续我们将详细介绍 AI 技术是如何帮助药企应对这些挑战的。
四、新技术与新进展
(一)自然语言处理技术的应用
在 IT 运维的异常检测领域,自然语言处理技术(NLP)正发挥着越来越重要的作用,催生出了一些创新的运维日志异常检测模型。
以京东云提出的一种基于自然语言处理技术的运维日志异常检测模型为例,它在改进特征提取方面有着独特的做法。在模板特征提取上,业界虽有多种方法,像独热编码,虽是较早且简单的能将文本模板转为数字表示的方法,但效率低,占空间大且忽略语义信息;还有词袋、word2vec 等自然语言处理相关方法,虽能考虑语义信息获得单词向量,却缺乏对每个模板词重要性调节能力。而京东云的这个模型利用词性(PoS)和命名实体识别(NER)这两种自然语言处理技术进行改进。
具体来说,先是通过 FT-Tree 将原始日志消息解析为日志模板,接着利用 PoS 工具处理模板,获取模板中每个词的 PoS 属性用于权重向量计算;同时通过 word2vec 把模板中的标记向量化为初始模板向量,再用 NER 在 PoS 属性中找出重要性高的模板词并赋予更大权重,以该权重向量对初始模板向量进行修改,生成复合模板向量后输入到深度神经网络(DNN)模型中,最终实现异常检测。这种做法减少了规则参与,降低了人工标注成本,更有助于合理的权重分配。
该模型在有效性测试方面表现出色,在三个不同的数据集上进行测试,并与两个当下较为先进的模型对比,结果显示其具有更高的准确度,能更精准地识别出包含异常信息的个体日志,为及时发现系统潜在问题、保障系统健康运行提供了有力支持。
(二)联想的智能运维实践
联想 Lenovo xCloud 智能云运维 AIOps 涵盖了两款极具代表性的 AI 产品,在智能运维方面成果显著。
其一是智能分析平台(AI Analysis),它基于判别式 AI 技术,为联想智能云运维产品提供传统算法服务支持,应用场景十分广泛,涵盖了从异常检测、根因分析到成本控制和资源优化等多个智能运维环节。通过运用这一平台,企业能够更高效地对 IT 系统进行监控,及时察觉异常情况,精准分析异常产生的根源,并且在成本把控以及资源调配方面做到更加合理、优化,从而有效提升 IT 运维效率和整个系统的稳定性。值得一提的是,该项产品技术已荣获 10 余项智能运维领域专利,这无疑是对其专业性和创新性的高度认可。
另一款产品是 Lenovo xSpark(联想智小星),它是基于生成式 AI 的 IT 运营智能体,具备强大的功能。它可以嵌入或集成到联想智能云运维 AIOps 产品中,提供诸如 RAG(检索增强生成)、代码生成、自动化任务调度与执行等能力。例如,它能够结合运维告警信息和历史数据,为运维故障场景提供定制化的洞察以及准确的解决方案建议,在警报和事件根因分析中效率提高了 36%;在 IT 自服务场景下实现用户自服务,使得研发效率提高 22%;在智能自动化应用场景下,还可辅助生成自动化操作脚本,让整体运营效率提高了 41%,全面提升了 IT 运维效率和用户交互体验。
在实际的智能运维场景中,面对不同企业复杂多样的 IT 架构和业务需求,联想 Lenovo xCloud 智能云运维 AIOps 这两款产品相互配合、协同发力。比如在大型制造企业中,智能分析平台负责实时监测生产系统中的各项性能指标,一旦发现异常便快速定位根源;Lenovo xSpark 则依据分析结果,自动生成相应的修复脚本或者调度相关运维任务,快速解决问题,避免生产流程受到影响。在金融企业中,智能分析平台对交易系统、资金清算系统等进行全方位监控和风险预警,Lenovo xSpark 辅助运维人员快速响应处理,保障金融业务的稳定、高效开展。总之,联想的这两款 AI 产品在不同智能运维场景下都展现出了强大的助力作用,切实帮助企业提升了运维效率,推动了企业的数字化、智能化转型进程。
五、总结与展望
(一)总结 AI 技术对 IT 运维异常检测的价值
AI 技术在当下 IT 运维异常检测领域已经展现出了显著的价值。
首先,在提升效率方面,它通过自动化的数据收集、分析以及模型训练等流程,极大地减少了人工干预的工作量。例如以往需要运维人员手动去查看、梳理海量的日志文件和性能指标数据来判断异常,现在 AI 技术可以快速完成这些任务,并且能够实时监控系统,一旦出现异常立即发出预警,大大缩短了发现问题的时间周期,让整个运维流程更加高效流畅。
其次,从降低成本角度来看,一方面减少了人力成本的投入,原本需要大量运维人员时刻盯着系统,现在借助 AI 可以实现部分自动化运维,释放人力去做更具价值的工作;另一方面,通过提前预警异常、精准定位故障,避免了因系统故障长时间停机带来的巨大损失,从整体上降低了运维成本和潜在的业务损失成本。
再者,增强可靠性方面,AI 技术凭借其强大的数据分析和模式识别能力,能够发现那些人工难以察觉的潜在异常行为,提前预测潜在故障,使得系统的稳定性得到有效保障。而且在检测到异常后,智能系统还可以按照预设策略自动执行修复操作或者辅助运维人员更快速、精准地解决问题,减少了因人为失误等因素导致的系统可靠性下降的情况,确保业务连续性不受影响。
总之,AI 技术已经成为 IT 运维异常检测中不可或缺的核心力量,为企业的运维工作带来了全方位的提升与优化。
(二)对未来发展的展望
展望未来,AI 技术在 IT 运维异常检测领域有着广阔的发展前景,有望结合更多新技术,拓展应用场景,进一步提升智能化水平。
一方面,会与更多前沿技术深度融合,例如与物联网(IoT)的结合,随着越来越多的设备接入物联网,产生的数据量会呈爆炸式增长,AI 技术可以借助这些海量的数据更精准地分析设备运行状态、检测异常情况,实现万物互联下的智能运维;和边缘计算的融合,能将数据处理和分析推向更靠近数据源的边缘端,实现更快速的异常检测和响应,降低数据传输延迟和网络带宽压力,尤其适用于对实时性要求极高的运维场景。
另一方面,应用场景也会不断拓展,除了目前常见的服务器、网络、应用系统等运维场景外,还会向更复杂、更关键的领域延伸,比如在智能交通系统中,保障交通信号控制、自动驾驶车辆后台系统等的稳定运行;在工业互联网领域,实时监控大型生产设备、流水线的运行状态,确保工业生产的高效与安全。