数据挖掘——异常检测task1:异常检测介绍

1、异常检测概述
·异常检测:识别与正常数据不同的数据,与预期行为差异大的数据
·异常类别:
a)点异常:指少数个体实例是异常的,大多数个体实例是正常的
b)条件异常:又称上下文异常,指在特定情况下个体实例是异常的,在其他情况下都是正常的
c)群体异常:指在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,在入侵或欺诈检测等应用中,离群点对应于多个数据点的序列,而不是单个数据点
·异常检测任务分类:
a)有监督:训练集的正例和反例均有标签
b)无监督:训练集无标签
c)半监督:在训练集中只有正例,异常实例不参与训练
·异常检测应用场景:
a)故障检测:监控系统,故障发生时识别并准确指出故障种类及故障位置
b)医疗日常监测:MRI扫描、PET(正电子发射断层扫描)或ECG时间序列,数据中的异常模式通常反应疾病状况
c)网络入侵检测:计算机系统中收集有关操作系统调用、网络流量或其他用户操作的不同类型的数据,恶意活动时数据可能显示异常行为
d)欺诈检测:未经授权使用信用卡可能表现出不同模式,可用于检测信用卡交易数据中异常值
e)工业异常检测
f)时间序列异常检测
h)视频异常检测
i)日志异常检测
·异常检测的难点
a)数据量少:异常检测任务通常情况下负样本(异常样本)是比较少的,有时候依赖于人工标签,属于样本不平衡问题
b)噪音:异常和噪音有时候很难分清
2、异常检测方法简介
·基础方法
a)基于统计学的方法:
统计学方法对数据的正确性做出假设——假设正常的数据对象由一个同济模型产生,而不遵守该模型的数据是异常点
统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立
异常检测的统计学方法的一般思想:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,将其作为异常点
异常检测—基于统计学的方法详细介绍
b)线性模型:
PCA方法——对数据集进行降维,降维后的数据能最大程度地保留原始数据的特征(以数据协方差为衡量标准)
原理:通过构造一个新的特征空间,把原始数据映射到新的低维空间中
异常检测—线性模型详细介绍
c)基于邻近度的方法:
邻近度算法适用于数据点的聚集程度高、离群点较少的情况
邻近度算法通常需要对每一个数据分别进行相应计算,计算量大,不适用于数据量大、维度高的数据
i.基于集群(簇)的检测,如DBSCAN等聚类算法
聚类算法是将数据点划分为一个个相对密集的“簇”,而那些不能被归为某个簇的点,则被视作离群点。这类算法对簇个数的选择高度敏感,数量选择不当可能造成较多正常值被划为离群点或成小簇的离群点被归为正常。因此对于每一个数据集需要设置特定的参数,才可以保证聚类的效果,在数据集之间的通用性较差。聚类的主要目的通常是为了寻找成簇的数据,而将异常值和噪声一同作为无价值的数据而忽略或丢弃,在专门的异常点检测中使用较少。
ii.基于距离的度量,如k近邻算法。
​ k近邻算法的基本思路是对每一个点,计算其与最近k个相邻点的距离,通过距离的大小来判断它是否为离群点。在这里,离群距离大小对k的取值高度敏感。如果k太小(例如1),则少量的邻近离群点可能导致较低的离群点得分;如果k太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使模型更加稳定,距离值的计算通常使用k个最近邻的平均距离。
iii.基于密度的度量,如LOF(局部离群因子)算法。
​ 局部离群因子(LOF)算法与k近邻类似,不同的是它以相对于其邻居的局部密度偏差而不是距离来进行度量。它将相邻点之间的距离进一步转化为“邻域”,从而得到邻域中点的数量(即密度),认为密度远低于其邻居的样本为异常值。
·集成方法
集成方法将多个算法或多个检测器的输出结合起来。
集成方法与基于子空间方法有着天然的相似性,子空间与不同的点集相关,而集成方法使用基检测器来探索不同维度的子集,将这些基于学习器集合起来。
常见集成方法:Feature bagging、孤岛森林
i.Feature bagging
原理:先将训练数据有放回地随机划分,得到k个子训练集,再在每个训练集上训练一个独立的模型(默认LOF)并最终合并所有的模型结果(对于分类问题,由投票表决产生分类结果;对于回归问题,由k个模型预测结果的均值作为最后预测结果。)。
优势:当原始数据中有噪声数据时,通过Bagging采样,那么部分噪声数据不会被采样到训练集中。因此Bagging可以降低模型的方差,不容易受噪声影响,应用于不稳定模型或者倾向于过拟合的模型。
劣势:当然对于训练集的拟合程度就会差一些。
ii.孤岛森林
原理:递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。直观上来讲,那些密度很高的簇是需要被切很多次才能被孤立,但是那些密度很低的点很容易就可以被孤立。
优势:计算成本相比基于距离或基于密度的算法更小;具有线性的时间复杂度;在处理大数据集上有优势。
劣势:不适用于超高维数据,因为鼓励森林每次都是随机选取维度,如果维度过高,则会存在过多噪音。
异常检测—集成方法详细介绍
·机器学习
有标签情况下,可以使用树模型(gbdt,xgboost等)进行分类,缺点是异常检测场景下数据标签是不均衡的,但是利用机器学习算法的好处是可以构造不同特征。
异常检测—机器学习详细介绍
异常检测综述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值