1. 什么是异常检测?
1.1 定义
Anomaly detection refers to the problem of finding patterns in data that do not conform to expected behavior. 1
异常检测,即寻找不符合预期行为的数据模式。
1.2 应用场景
某些数据的异常表现可能蕴含重要信息。
例如,在金融风控场景中,脱离正常的行为模式可能意味着信用卡盗刷、骗保;
在医疗影像如CT、MRI中,异常图像可能意味着肿瘤等疾病;
计算机网络安全领域中,检测是否有违反安全策略的入侵等。
1.3 异常检测为什么难做
-
正常和异常之间的界限不清晰。在靠近边界处,正常观测常被错分类为异常观测,而异常观测又容易被分类为正常的。
-
异常行为难以辨识。异常行为通常遭人“粉饰”,使之看起来正常。
-
异常行为多变导致处置方式需要及时调整。例如双十一网店的销量很大可能是正常的,但平日里突然销量暴增可能是人为刷单,需要及时调整策略。
-
不同场景下的异常定义不同。例如,医学领域的微小偏差(如体温波动)可能是异常,而在股市领域的类似偏差(如股票价值波动)可能被视为正常;
-
数据缺乏标签,很多场景下没有异常数据的标签,无法使用监督学习;即使使用人工打标创建标签,通常情况下负样本(异常样本)是极少的,属于样本不平衡问题。
-
异常和噪音有时候很难分清。
2. 异常检测的分类
2.1 根据数据集性质分类
- 统计型数据 static data(文本、网络流)
- 序列型数据 sequential data(