Online Anomaly Prediction for Robust Cluster System

题目:《Online Anomaly Prediction for Robust Cluster System

时间:2009

会议:IEEE International Conference on Data Engineering

简介:

这是一篇发表在一个顶级会议上的会议论文。主要的工作是通过将stream-based的数据进行异常点的预测,文中也提到了这是首篇对stream-based data进行预测的paper。另外,当前对异常点研究的成果并不多,大多数也都是基于statistics的,而这篇则是用到了 Markov chain和navie Bayesian,毕竟是09年的paper,所以技术并不是很新,所以放在现在可以借鉴和改进的地方很有很多。

应用技术:

Markov chain和navie Bayesian classification

检测的是IBM的集群中的数据

模型框架:

从图中可以很直观的看出整个模型的框架:

1、将当前的特征点(多维)映射到坐标中,通过Markov Chain可以得到这个样本点中每个特征的概率分布,从而得到一个分布的region。其中,由于每个样本点可能有多个特征,而每个特征的范围可能是连续的,而Markov的状态空间则是要求有限的状态空间,所以文中使用了一个equ-depth的方式来划分这个范围,从而将连续的数据转换为离散的。

2、通过Markov Chain得到每个样本点的特征的概率分布,通过下面的公式对特征的概率分布进行Bayesian计算。

然后比较在anmoly和nomaly之间哪个confidence更高。

算法的流程如下:

首先是对bayesian模型的训练。

通过对labeled的数据进行navi bayesian的训练,可以计算得到每个特征点中的各个metric对分类结果(anomaly、normaly)的概率。

后面的实验部分通过了三个指标进行了验证:

detection rate(检测率)

false alarm rate(错误警报率)

distance statistics(警报时隔)


下图就是对future data和current data的detection。

Ntp是在指定的时间周期中出现正确的警报的数量。

Nfp是在指定的时间周期中出现错误的警报的数量。


time prediction diff的意思是异常出现和发出警报的时间差。




总结:

1、文中的一个创新之处是在通过Bayesian对future data分类的时候,没有是对data进行分类,而是对data中的特征分布进行分类的,这样更能发现一些潜在的特征。

2、由于发表的时间较早,所以放在现在来看的话,可以用一些更先进的方法例如DL和Mate Learning等技术来对内部进行一些改进。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值