在数据分析领域,指标的突然上涨或者下降 是一个异常行为 ,这两种情况都值得我们去关注。如果我们标注了这些异常点,可以使用监督学习去检测异常点。但是业务开始的时候,没有业务反馈(数据打标)的时候,我们很难去发现这些异常点,也就是说需要训练样本。这样我们可以选择无监督学习的方法,比如Isolation Forest,One class SVM and LSTM。本文主要说明了Isolation Forest的使用方法,算法说明:
- https://zhuanlan.zhihu.com/p/27777266(算法原理主要看这个文档)
- https://towardsdatascience.com/anomaly-detection-with-isolation-forest-visualization-23cd75c281e2 (算法使用主要看这个文档)
- https://www.cnblogs.com/wj-1314/p/10461816.html 大神之作
结论:我们可以通过dasaa或者pai直接落地,算法相对简单。
我理解这个算法的本质是:构建使用多个树,去查找所有值的深度,深度相对较浅的点,大概率是是异常点。这个如果和 四象限分析方 结合起来,是一个比较有意思的创新。