异常检测算法在可观测性平台的落地和实践｜得物技术

得物技术

于 2024-08-29 15:48:15 发布

阅读量2k

点赞数 15

文章标签：算法人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SmartCodeTech/article/details/141680699

版权

一、背景

在稳定性保证中，重要的一个环节就是故障管理体系建设，故障管理体系的四大核心功能——故障发现、故障触达、故障定位和故障恢复，其中故障发现作为故障管理的第一步至关重要，包含了指标预测、异常检测和故障预测等方面，主要目标是能及时、准确地发现故障。今天主要针对故障发现环节中的异常检测介绍AI异常检测算法在指标检测上的应用。

传统基于阈值的异常检测方法的缺点：

比较依赖个人经验，需要了解指标的历史趋势。
配置比较复杂，有时对周期波动型的时序数据还要针对不同的时间段配置不同的阈值。
随着业务的变更要不断调整阈值，随着时间推移、业务的变更，观测指标趋势也可能发生改变，要对阈值做相应的调整。

受大促或异常值影响比较大，像有些阈值配置同比或者环比，如果上一时刻或者历史同时刻有数据有异常，会影响该时刻的检测判断。

对比固定阈值的检测，AI检测算法在突增、突降等异常检测场景中可以很好地解决上述问题。下面会针对AI检测算法在可观测性产品中的应用做相关的介绍。

二、异常检测算法

AI异常检测算法之前，通常需要对历史数据做预处理，包括异常值的剔除，缺失值的填充等。

异常值剔除

这时可能大家会有疑惑，做异常检测为什么还要剔除异常值，这里的异常值是指作为参照的历史数据中的极值，剔除极值可以减少极值影响，去除异常值有助于提高异常检测算法的准确性。

箱型图

箱型图不需要考虑数据集的分布情况，它是通过将数据分成四分位来衡量统计分散度和数据可变性，是一种简单有效的异常点剔除算法。

下四分位数：25%分位点对应的值（Q1）
中位数：50%分位点对应的值（Q2）
上四分位数：75%分位点对应的值（Q3）
上须：Q3+1.5（Q3-Q1）
下须：Q1-1.5（Q3-Q1）

如上图所示，大于上须的值或者小于下须的值我们认为是异常值。

考虑3sigma跟箱型图算法的特点，箱型图可能更加具普适性，因为它不用考虑数据集的分布情况，在实际应用中我们也是采用的箱型图算法来剔除异常点。剔除异常值后需要对缺失值进行填充，确保数据的连续性，防止后续检测算法在处理时报错，通常缺失值填充的方法有：

前后填充法，使用前一个值填充或者后一个正常值填充。
均值、中位数填充法。
插值法，插值法有线性插值和多项式插值。线性插值就是通过线性回归预测缺失位置的值，多项式插值使用多项式回归预测缺失位置值。

下面是我们采用箱型图剔除异常点并采用多项式插值的效果：

蓝色的线是原始的观测值，红色的点是检测出的异常点，黄色的线是通过插值法填充后的结果。数据预处理后，利用预处理后的结果进行异常点检测。

统计方法的应用<

最低0.47元/天解锁文章

博客等级

码龄5年

得物技术官方账号

306
原创

2844
点赞

3142
收藏

2322
粉丝

关注

私信

热门文章

分类专栏

得物技术 93篇

展开全部收起

上一篇：: 报名｜质量技术&AI提效专题分享-得物技术沙龙

下一篇：: 得物App白屏优化系列｜归因篇

最新评论

你的debug包在Android 14变卡了吗？｜得物技术
阿迪Jond: 一开始遇到了,也推测了是系统问题.但没能找到详细原因，博主强
RUST练习生如何在生产环境构建万亿流量|得物技术
Higgins995: 文中给出的示例代码有误：可变借用示例的代码与不可变借用示例的代码一致
从大模型性能优化到DeepSeek部署｜得物技术
MemPhi G: 如何尝试使用deepseek API呢
从大模型性能优化到DeepSeek部署｜得物技术
程序猿全栈の董: 这篇文章深入探讨了本地部署大模型时性能优化的多个方面，并结合实践进行了评测分析。以下是我对文章内容的总结和看法：一、背景 ‌大模型推理性能优化‌：随着Deepseek-r1等大模型的爆火，本地部署大模型的需求日益增长。性能优化主要聚焦于吞吐量和响应时间两个关键指标。二、高性能、易扩展的大模型推理框架 ‌CPU与GPU分离设计‌：为了提高性能，大模型推理框架应采用CPU与GPU分离设计。CPU进程负责序列化、调度等任务，而GPU进程专注于推理计算。这种设计可以显著提高GPU利用率，减少GIL锁的竞争。 ‌模块高内聚低耦合‌：推理框架应拆分为多个模块，包括接入层、调度器、模型推理和显存管理等，以实现高效且易于扩展的设计。三、解决显存碎片问题，大幅提升吞吐—Paged Attention ‌显存碎片问题‌：在大模型推理中，频繁的显存申请与释放会导致显存碎片问题。 ‌Paged Attention‌：借鉴操作系统的内存管理机制，将KV Cache划分为固定大小的块，并通过Block table进行映射管理。这种方法有效减少了显存碎片，提高了GPU利用率和吞吐量。四、缓存之前请求的计算结果，减少重复计算—Radix Attention ‌重复计算问题‌：在实际应用中，多个请求往往包含相同的Prompt部分，导致重复计算。 ‌Radix Attention‌：利用基数树高效管理和重用不同请求之间共享的前缀，从而减少重复计算和内存占用。这种方法显著提高了推理速度和吞吐量。五、请求分块处理，避免单个请求卡顿 —— Chunked Prefill ‌卡顿问题‌：在大模型推理中，长Prompt的推理可能导致GPU资源占用过多，影响其他请求的响应时间。 ‌Chunked Prefill‌：将长Prompt按固定长度分块处理，每次只处理一块。这种方法减轻了单个请求对GPU资源的占用，避免了卡顿现象。六、缩短输出长度，显著提升性能 ‌输出长度影响‌：大模型的输出长度越长，响应时间越长。 ‌缩短输出长度的方法‌：包括限制最大输出长度、通过Prompt限制输出、微调大模型等。这些方法可以显著提高响应时间。七、使用多卡推理，推理速度翻倍 ‌多卡推理优势‌：在无法量化大模型但对响应时间有高要求的情况下，多卡推理可以显著提高推理速度和QPS。 ‌张量并行‌：多卡推理通过张量并行实现优化
Go-Job让你的任务调度不再繁琐｜得物技术
endfind1990: 开源么

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。