异常:预期值与真实值有很大的差异
统计的方法
3-sigma
刻画异常的程度,数据需要接近高斯分布,如果不是可以通过高斯分布或者tan变换。可以先看一下数据分布图,看一下数据的分布情况
box-plot方法
提出异常点的影响
最大值、最小值、中位数和两个四分位数
时间序列分析的方法
数据的波动与人的行为直接相关,是一个时序的。
主要结构:周期性,趋势性,误差、随机扰动
机器学习方法
回归预测、提取特征
监督学习和无监督学习
模式匹配
iforest、rrcf、gmm、maf
直接检测
根据指标历史的波动数据, 判断数值异常
基于概论统计模型判断异常,3-sigma、boxplot
基于相似度度量模型,LOF、iForest
间接检测
检测前你和波形,与真是的指标值做比较
间接检测通常会包括训练和检测
常见算法:ARIMA、一次或三次指数平滑、XGBoost、LSTM等
demo代码:周期设定、异常值提出
人工智能
输入数据、指标预处理、指标你和、指标检测。
去除异常值、缺失值补齐
时序特征构造:很多特征数据
one-hot、离散化对xgboost提升很显著
指标分类:周期性和非周期性。
回归模型
根据历史数据的周期滑窗特征。
XGBoost拟合真实值与上一轮预测值的之间测残差。
XGBoost算法中,对于周期性的数据,XGBoost能较好的学习数据的周期性特征
相似度检测模型
GMM混合模型
提分技巧
常用的方法:
周期性,下偏异常,与相邻点和上个周期点的差距较大,上偏可以去除
非周期性,上偏异常,下偏可以去除。
同组kpi异常检测,异常出现的很相似:计算pearson相关系数
异常值可能是连续的,检测到异常值后可以降低阈值检查前后点