异常检测

10.1预备知识

10.1.1异常的成因

数据来源于不同的类
自然变异
数据测量和收集误差

10.1.2 异常检测方法

基于模型的技术:不能很好地拟合模型的对象,一般判别为异常
基于邻近度的技术:在对象之间定义邻近性度量,原理大部分对象的一般判别为异常
基于密度的技术:低密度区域中的对象相对远离近邻,被看作异常

10.1.3类标号的使用

异常检测有三种基本方法:非监督、监督、半监督,主要区别在于类标号的可利用程度。
监督的异常检测:存在异常类和正常类的训练集
非监督的异常检测:目标是将一个得分赋予每一个实例,反应该实例的异常程度
半监督的异常检测:使用有标记的正常对象的信息,对于给定的对象集合,发现异常标号

10.1.4 问题

用于定义异常的属性个数
全局观点与局部观点
点的异常程度
一次识别一个异常与多个异常
评估
有效性

10.2统计方法

统计学方法是基于模型的方法,即为数据创建一个模型,并根据对象拟合模型的情况来评估他们。
离群点检测方法面临的问题:
识别数据集的具体分布
使用的属性个数
混合分布

10.2.1检测一元正态分布中的离群点

在这里插入图片描述

10.2.2 多元正态分布的离群点

在这里插入图片描述
Mahalanobis距离:
在这里插入图片描述

10.2.3 异常检测的混合模型

初始时将所有对象放入普通对象集,而异常对象集为空,然后用一个迭代过程将对象从普通集转移到异常集,只要该转移能够提高数据的总似然。
在这里插入图片描述

10.3 基于邻近度的离群点检测

如果一个点远离大部分点,则可以判定这个对象是异常的。
到k最近邻的距离:一个对象的离群点得分由到它的k-最近邻的距离给定

10.4 基于密度的离群点检测

从基于密度的观点来说,离群点是在低密度区域中的对象。
基于密度的离群点:一个对象的离群点得分是该对象周围密度的逆
给定半径内的点计数:一个对象周围密度等于该对象指定距离d内对象的个数

10.5 基于聚类的计数

利用聚类检测离群点的方法是丢弃远离其他簇的小簇
基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值