异常检测学习笔记 02 下基于统计学的方法

本文介绍了异常检测中的统计学方法,包括基于正态分布的一元和多元异常点检测,以及非参数方法中的直方图基础的异常评分(HBOS)。HBOS算法快速且适用于全局异常检测,但对局部异常值检测不足。实践中,直方图的箱数选择对结果有显著影响,过多或过少可能导致误判。
摘要由CSDN通过智能技术生成

异常检测——基于统计学的方法

1.概述

异常检测的统计学方法有两种,参数方法和非参数方法。两者的区别在于参数方法要求假定数据服从某个参数分布,而非参数方法并不需要假定先验统计模型,但非参数方法并不是说模型是完全无参的,只是可以灵活假设参数类型和个数。

2.参数方法

2.1 基于正态分布的一元异常点检测

类似于箱型图的异常点(利用数据集的上下四分位数,中点等定义异常点。
假定输入数据集为 x ( 1 ) , x ( 2 ) , . . . , x ( m ) {x^{(1)}, x^{(2)}, ..., x^{(m)}} x(1),x(2),...,x(m),数据集中的样本服从正态分布,即 x ( i ) ∼ N ( μ , σ 2 ) x^{(i)}\sim N(\mu, \sigma^2) x(i)N(μ,σ2),我们可以根据样本求出参数 μ \mu μ σ \sigma σ
μ = 1 m ∑ i = 1 m x ( i ) \mu=\frac 1m\sum_{i=1}^m x^{(i)} μ=m1i=1mx(i)
σ 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ) 2 \sigma^2=\frac 1m\sum_{i=1}^m (x^{(i)}-\mu)^2 σ2=m1i=1m(x(i)μ)2
求出参数之后,我们就可以根据概率密度函数计算数据点服从该分布的概率。正态分布的概率密度函数为
p ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac 1{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) p(x)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值