12异常值
定义
异常值是显著偏离数据集的那些数据对象,其可能由不同的机理产生。
分类
全局异常值:显著偏离数据集中剩余数据的对象,是最常见的异常值类型。例子:在计算机入侵检测中,如果计算机的通信行为与正常模式不同(如短时间内广播大量的数据包),就有可能受到了黑客入侵。
上下文异常值:在具体的背景下,显著偏离数据集。例子:某个温度值,在不同的地方,不同的季节,会考虑成为上下文异常值;在信用卡欺诈检测中,对于某个使用超过90%信用额度的用户,如果该用户是低信用额度的用户,这是一个正常现象。但如果是高信用额度的用户,就考虑为上下文异常值,这样的异常值意味着新的商机(提高额度带来更高的收益)。
集合异常点:单个数据点不会是异常值,但多个数据点聚合就会偏离整体数据集。例子:在股票交易中,若在短时间内两家公司有大量相同的股票交易,就可以考虑有人在操作交易市场。
检测方法
基于模型的统计方法:效果依赖于数据是否由统计模型产生
基于邻近度的方法:效果依赖于测度的定义
基于聚类的方法:聚类操作耗时,不适用于大规模数据
高维数据的检测:随着维度的增加,噪声的恶化会变严重
1.拓展传统的异常检测
HilOut算法、pca降维(取方差小的特征空间作为检测空间)
2.在子空间搜索异常值(异常值容易解释)
启发式在子空间搜索、稀疏系数
3.对高维数据建模