异常检测概念及方法简介

chapter01 异常检测概述

 

一、异常检测的概念

异常检测(Outlier Detection):识别与正常数据不同的数据,与预期行为差异大的数据。

应用场景如:信用卡欺诈、工业生产异常、网络流量异常等,针对的是少数的事件。

 

1.1 异常的类别:

点异常(point anomaly):少数的个体实例是异常的,大多数个体实例是正常的,例如健康的人与病人的健康指标。

条件异常(conditional anomaly):又称上下文异常,指在特定情境下个体实例是异常的,在其他情境下个体实例是正常的,例如在特定时间的温度突然上升或下降,在特定场景中的快速信用卡交易。

群体异常(group anomaly):群体集合中个体实例出现异常的情况,而该个体实例自身可能不是异常,在入侵或者欺诈检测等应用中,离群点对应于对个数据点的序列,而不是单个数据点。例如社交网络中虚假账号形成的几个作为群体异常子集,但子集中的个体点可能与真是账号一样。

 

1.2 异常检测方法分类

有监督:训练集的正例和反例均有标签

无监督:训练集无标签

半监督:在训练集中只有正例,异常实例不参与训练

 

1.3 异常检测的应用场景

故障检测:主要监控系统,在故障发生时识别出故障并且指出故障的种类及发生的位置。

医疗日常监测:医疗应用中数据由各种设备收集,如磁共振成像(MRI)扫描、正电子发射断层扫描(PET)、心电图(ECG)时间序列等。这些数据中异常的模式反映疾病的状况。

网络入侵检测:在许多计算机系统中会收集 操作系统调用、网络流量、用户操作等数据。在有恶意活动发生时,该类指标可能发生突变,反映异常行为,此类活动称为入侵检测。

欺诈检测:信用卡欺诈越来越普遍,因为信用卡号码等敏感信息更容易被泄露。在许多情况下,未经授权使用信用卡可能表现出不同的模式,例如从特定地点疯狂购买或进行非常大的交易。这种模式可用于检测信用卡交易数据中的异常值。

工业异常检测

时间序列异常检测

视频异常检测

日志异常检测

 

1.4 异常检测难点

(1)数据量少。负样本数量稀缺,有时依赖人工标准,样本不均衡。

(2)噪声。异常和噪声难以分辨。

 

 

 

二、异常检测方法简介

2.1基础方法

2.1.1基于统计学的方法

统计学方法对数据的正常性作出假设。统计学方法假设正常数据由统计模型产生,不遵守该模型的数据是异常点。统计学方法有效性高度依赖于对给定数据所做的统计模型假设是否成立。

异常检测统计学方法思想:学习一个拟合给定数据集的生成模型,识别该模型概率低区域中的对象,做为异常点。即利用统计学方法建立一个模型,考虑对象有多大可能符合该模型。

 

2.1.2线性模型

典型的例如PCA方法。PCA对数据进行降维,并降维后的数据能最大程度的保留数据原始特征(以数据协方差为衡量标准)。PCA原理是通过构造一个新的特征空间把原数据映射到新的低维特征空间中。PCA可以提升计算性能,缓解高维灾难。

2.1.3基于邻近度的方法

适用于数据点的聚集度高、离群点少的情况。

相似度计算要对每一个数据分别计算,计算量大,不适用于数据量大、数据维度高的情况。

基于相似度的检测方法大致分为三类:

1.基于集群的检测,如DBSCAN等聚类算法

聚类算法是将数据点划分为一个个相对密集的“簇”,而那些不能被归为某个簇的点,则被视作离群点。这类算法对簇个数的选择高度敏感,数量选择不当可能造成较多正常值被划为离群点或成小簇的离群点被归为正常。因此对于每一个数据集需要设置特定的参数,才可以保证聚类的效果,在数据集之间的通用性较差。聚类的主要目的通常是为了寻找成簇的数据,而将异常值和噪声一同作为无价值的数据而忽略或丢弃,在专门的异常点检测中使用较少。

2.基于距离的度量,如K近邻算法

​ k近邻算法的基本思路是对每一个点,计算其与最近k个相邻点的距离,通过距离的大小来判断它是否为离群点。在这里,离群距离大小对k的取值高度敏感。如果k太小(例如1),则少量的邻近离群点可能导致较低的离群点得分;如果k太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使模型更加稳定,距离值的计算通常使用k个最近邻的平均距离。

3.基于密度的度量,如LOF(局部利群因子)算法

​ 局部离群因子(LOF)算法与k近邻类似,不同的是它以相对于其邻居的局部密度偏差而不是距离来进行度量。它将相邻点之间的距离进一步转化为“邻域”,从而得到邻域中点的数量(即密度),认为密度远低于其邻居的样本为异常值。

 

 

2.2集成方法

feature bagging 孤立森林

feature bagging:与bagging法类似,对象是feature

孤立森林

 

高密度的簇需要很多次才能分开,低密度的点很快就能被单独分配到一个子空间,孤立森林认为很快被孤立的点是异常点。

如图,d是最早被孤立的点,认为d是异常点。

 

 

2.3机器学习

在有标签情况下,可以使用树模型(gbdt,xgb,lgb等)进行分类,缺点是标签可能不均衡,好处可以构造不同特征。

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值