ESD (Extreme Studentized Deviate) 数据异常值检测模型的原理是基于统计学中的"学生化残差"来进行异常值检测。模型会计算出每个数据点对应的学生化残差,然后对这些学生化残差进行统计分析,寻找其中的离群值。
具体的操作步骤如下:
- 对数据进行线性回归分析,计算出每个数据点的残差。
- 对残差进行标准化,得到学生化残差。
- 计算出每个学生化残差对应的统计量,如 Z-Score.
- 根据统计量对应的分布情况,设定置信度水平,确定哪些学生化残差是离群值。
- 将离群值对应的数据点标记为异常值。