异常检测定义:识别与正常数据不同的数据,与预期行为差异大的数据。
而在一般情况下,可以将异常检测堪称数据不平衡下的分类问题,我的理解就是,将数据分成两类,一类正常值一类是异常值,而异常值一般比较少,所以看作数据不平衡的分类问题。
注意一点,在异常检测中一般都是没有label的,换句话说 都是无监督学习,(如果这样是不是所有机器学习的无监督学习方法都可以运用到异常值检测中。。。)
异常的类别:
点异常:少数个体实例
条件异常:在特定情境下个体实例是异常的
群体异常(指的是在群体集合中的个体实例出现异常的情况,而该个体实例自身可
能不是异常,在入侵或欺诈检测等应用中,离群点对应于多个数据点的序列,而不是单个数据点。
异常检验任务分类:
有监督:有label
无监督:无label
半监督:训练集中异常实例不参与训练
异常检测场景:
故障检测、医疗日常监测、网络入侵检测、网络入侵检测、欺诈检测、工业检测等
异常检测的难点:数据量少,并且有噪音
异常检验方法简介
异常检验的方法有以下几类:
- 基础方法:
- 基于统计学方法,即假设数据服从一个分布,然后用样本数据对分布参数进行估计 然后如果数据发生概率很小就将其定义为异常值
- 线性模型:
- 临近算法
- 集成方法:孤立森林
- 机器学习