1、背景
异常检测在智能运维中具有至关重要的意义,它通过自动化的方式帮助识别系统中的异常行为,从而提高系统的可靠性、可用性和性能,是保障系统稳定性、提升运维效率的核心技术。它通过自动化手段帮助运维团队提前发现潜在问题,从而防止故障发生,减少系统停机时间,避免业务损失。
同时,异常检测通过智能过滤告警,帮助运维人员聚焦于真正的异常,减少告警疲劳,提升问题的定位和诊断效率。它还支持自动化运维决策,在无需人工干预的情况下自动处理异常,提升运维的智能化水平。
此外,异常检测能够优化资源利用,通过识别资源使用的异常模式,帮助运维团队合理分配资源,降低运营成本。它还可以通过对历史数据的分析,支持系统的持续改进和优化,不断提升系统的稳定性和性能。面对复杂和动态的 IT 环境,异常检测能够自适应变化,帮助运维团队应对多变的系统状态,确保系统的高效运行,进而提升用户体验。
异常点检测(又称为离群点检测)是找出其行为很不同于预期对象的一个检测过程,这些对象被称为异常点或者离群点。
常见的异常检测算法可以分为基于统计方法、监督学习、无监督学习、距离方法、密度方法、时间序列方法、深度学习方法和基于规则的方法等几大类。每类方法都有其经典的算法,适用于不同的数据类型和场景。
例如,基于统计的方法适合数据量较小且分布明确的场景,基于机器学习的方法适合复杂的数据结构,而深度学习方法适合处理高维和大规模数据。
2、DeepAnT异常检测算法介绍
2.1 算法具体分析
深度学习方法:
○ DeepAnT 使用了卷积神经网络(CNN)来学习时间序列中的模式。CNN 通过提取时间序列中的局部特征来进行预测和异常检测。
○ 这种方法不依赖于手工特征提取,而是通过神经网络自动学习数据中的复杂模式,适用于高维度和复杂的时间序列数据。
时间序列异常检测:
○ DeepAnT 主要用于时间序列数据的异常检测。它通过预测未来的时间点,并将预测值与实际值进行比较,来识别异常。如果预测值与实际值之间的差异的大小,来判定当前点是否异常。
无监督学习:
○ DeepAnT 是一种无监督学习方法,不需要人工标注异常标签。模型通过学习时间序列的正常模式来检测偏离这些模式的异常点。
2.2 异常检测器具体步骤
异常分数计算:
图 1. DeepAnT 时间序列预测结构:包含两层卷积层、两层最大池化层和一层全连接层的卷积神经网络
预测器模块生成的预测值会传递给这个异常检测模块,并计算实际值与预测值之间的差异。差异通过欧几里得距离来衡量,且这个差异代表每个时间点的异常分数,公式如下:
其中,yt 是实际值,yt′ 是预测值。
异常检测的动态阈值计算:
异常检测的动态阈值,基于异常分数的均值和标准差。公式可以表示为:
其中:𝜇 是异常分数的均值,𝜎是异常分数的标准差,𝑘 是标准差的倍数。
阈值是通过均值加上标准差的倍数来动态计算的,用于判断某个时间点的异常分数是否足够大,从而判定是否为异常。
异常点判定:
对于每一个时间点t,比较它的异常分数 anomaly scoret 和动态阈值 threshold:
如果 anomaly scoret>threshold,则认为该时间点 t 是异常点。否则,认为该时间点 t 正常。
2.3 异常检测结果展示
图 2. CPU 时序数据异常检测结果
图 3. DeepAnT 在 Memory 时序数据中的异常检测结果
DeepAnt 通过滑动窗口机制将时间序列数据切分成多个小片段,并使用深度神经网络对这些片段进行建模。神经网络具有强大的非线性建模能力,能够捕捉到时间序列中的复杂模式和变化趋势。
因此,即使在非平稳序列中,DeepAnt 也能很好地学习到数据的局部模式,并预测未来值。并根据预测值与实际值的偏差来检测异常点。这表明 DeepAnt 对非平稳数据具有较强的鲁棒性。
3、最佳实践
图 4. 异常检测流程
如图 4 所示,大数据在用户端采集各项性能指标,通过 Flink 框架进行数据流式处理存入 Doris 实时数据库,将指定指标时序数据传入算法接口,时序数据通过神经网络进行特征提取,并训练时序预测模型用于下一步的异常分数和动态异常阈值计算,然后即可得到异常输出,进入下一步的一场处理阶段,从而完成一个完整的异常检测流程。
蒙帕在智能运维领域拥有丰富的实践经验,成功将异常检测算法应用于集群和数据中心领域,以解决大量用户同时访问虚拟桌面所带来的挑战。在集群和数据中心环境中,大规模的计算资源被多个用户共享,系统的稳定性和性能对于保障业务连续性至关重要。
蒙帕利用 DeepAnT 算法实时监测集群和数据中心的关键指标数据,如 CPU 利用率、内存使用率、磁盘 IO 等,快速识别异常情况并进行预警。通过及时发现潜在问题,避免系统故障和性能下降,提升整个集群和数据中心的可靠性和稳定性。
此外,蒙帕结合统计学方法,为用户提供可自定义监控数据的功能,构建 VDI、集群和数据中心等多维度的全方位监控系统,实现监控、资源管理、分析和自动化的统一管理。
4、总结
在智能运维领域,DeepAnT 算法在异常检测中展现出了卓越的性能,特别是在处理非平稳时间序列时,仍能保持高准确性和效率。其动态阈值计算方法、自适应的深度学习模型以及高效的滑动窗口处理机制,使 DeepAnT 成为一款强大且高效的时间序列异常检测工具。
蒙帕在智能运维领域通过将异常检测算法应用于集群和数据中心环境,实现了实时监测关键指标、快速识别异常并预警的目标。
通过这一综合监控系统,不仅能够优化资源利用、合理分配计算资源、降低能耗和运营成本,还可以利用历史数据的分析和学习不断改进集群和数据中心的性能,提高系统效率,确保业务运行的顺畅,从而保障集群和数据中心的可靠性和稳定性,为用户提供更加可靠和高效的智能运维解决方案。
关于蒙帕
上海蒙帕智能科技股份有限公司聚焦IT运维领域20余年,服务客户超过400多家。
2015年组建研发团队,专注于“智能巡检机器人” 及“智能运维综合管控平台” 的研发,目前已获得“智能运维类”软件著作权40余项,产品发明专利30余项。
在北京、西安、重庆、深圳、广州、沈阳、大连、郑州、武汉、成都、无锡等地均设有分公司及办事处。