dbscan matlab 负荷曲线聚类_时间序列聚类-ROCKA算法

论文标题:Robust and Rapid Clustering of KPIs for Large-Scale Anomaly Detection

KPI时间序列聚类面临的挑战

  • 噪声和异常:噪声是指数据采集时候带来的较小的波动。异常是指相对于序列的平均水平波动很大的数值。噪声和异常都会影响到时间序列的聚类,无论是使用特征工程还是相关性的方式做聚类。
  • 振幅:kpi数据因为是在不同机器上采集的数值有可能存在一定的差异。
  • 偏移:各个时间序列因为在调用链上的位置不同,所以有可能存在延迟

提取baseline的算法流程

  1. 为了能解决上面提到的振幅不同的问题,所以需要进行标准化。也就是减均值除以标准差。
  2. 提取baseline
  3. 平滑极端值,也就是解决上面提到的异常的问题。平滑极端值的方法很简单,就是直接去掉相对平均值来说偏差最大的5%的数据,然后利用线性插值填充。因为经过标准化之后,序列的均值为0,方差为1,所以直接去掉绝对值最大的5%的数据,这个比例可以根据数据中异常值的数量进行改变。
  4. 提取baseline,可以通过简单的移动平均的方式进行提取。

2e81db9096857429684a3b8567309002.png


T就是经过平滑极端值后的序列,B就是baseline,R就是残差。W是滑动窗口的大小,也可以根据具体情况来确定。滑动平均的方法实际上也去掉了一部分的噪

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值