【Datawhale第25期组队学习】Task02:基于统计学

本文介绍了异常检测的统计学方法,包括参数方法和非参数方法。参数方法基于正态分布进行一元和多元异常点检测,而非参数方法通过构造直方图来识别异常点。此外,还讨论了基于角度的方法和HBOS算法,HBOS适用于大数据集且速度快。
摘要由CSDN通过智能技术生成

异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。


一、概述

根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。
参数方法假定正常的数据对象被一个以 为参数的参数分布产生。该参数分布的概率密度函数 给出对象 被该分布产生的概率。该值越小, 越可能是异常点。
非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的,不预先确定(所以非参数方法并不是说模型是完全无参的,完全无参的情况下从数据学习模型是不可能的)。

二、参数方法

2.1 基于正态分布的一元异常点检测

样本服从正态分布->求出参数->正态分布的概率密度函数->根据阈值判断是否为异常点

2.2 多元异常点检测

核心思想是把多元异常点检测任务转换成一元异常点检测问题。
如果特征之间有相关性,就要用到多元高斯分布了。

三、非参数方法

构造直方图->检测异常点
缺点:箱尺寸难选择,尺寸太小正常点会被误认,太大异常点会被认错为正。

四、基于角度的方法

数据边界上的数据很可能将整个数据包围在一个较小的角度内,而内部的数据点则可能以不同的角度围绕着他们。
如果数据点与其余点离得较远,则潜在角度可能越小。因此,具有较小角度谱的数据点是异常值,而具有较大角度谱的数据点不是异常值。

五、HBOS

单变量,计算速度快,大数据集友好,不能局部异常检测
构造直方图->计算频率->静态/动态->直方图归一化

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值