异常检测(三)

多元高斯分布(Multiplicate Gaussian Distrtibution)

以数据中心计算机监控为例,我们有如下数据分布图。当出现图中绿色标记点的数据时,根据高斯分布计算得到的p(x)值大于ε,因此异常检测算法认为该数据点为正常数据。而实际上,该点为异常数据。


为了避免这种情况,我们可以构建新的特征变量来帮助异常检测算法捕捉异常数据;我们也可以使用基于多元高斯分布的异常检测算法,图蓝色椭圆即为该方法划出的判定边界。

在基于多元高斯分布异常检测算法中,p(x)的计算方法为:


其中,Σ为协方差,|Σ|为Σ的行列式(在Octave中使用det(Sigma)函数计算|Σ|),Σ-1为Σ的逆矩阵。

Anomaly Detection using the Multivariate Gaussian Distribution

多元高斯异常检测算法

在多元高斯分布模型中,我们首先应计算参数μ和Σ:



其中,μ∈Rn,Σ∈Rn*n

然后,我们再计算p(x):


最后,如果p(x) < ε则表明数据异常。

协方差对模型的影响


Original Model vs. Multivariate Gaussian

Original ModelMultivariate Gaussian
如需捕捉特征之间的相关性,应手动构建新的特征,即通过特征组合方式捕捉异常自动捕捉特征之间的相关性
计算成本低,对于含有大规模的特征变量的数据集适应良好计算成本高
即使训练集较小也能适用必须满足m > n,否则协方差矩阵不可逆,一般要求m ≥ 10n

其中,对于协方差不可逆的情况一般可分为两种情况:1)不满足m > n(m ≥ 10n);2)有多余或相同特征,使得xi = xj + xk或xi = xj

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值