对统计数据分析,异常数据检测以及排除时,主要有两种方法:物理判别法和统计判别法
- 物理判别法:人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果,在实验过程中随时判断,随时剔除。
- 统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。当物理识别不易判断时,一般采用统计识别法。
数据预测检测和处理系列文章
- 拉依达准则( PauTa Criterion 或 3σ准则) 处理异常数据
- 肖维勒准则(Chauvenet Criterion)处理异常数据
- 狄克逊准则(Dixon Criterion)处理异常数据
- 格拉布斯准则(Grubbs Criterion)处理数据异常
- 皮尔士准则(Peirce Criterion)处理异常数据
- 卡方检验(chi-squared test)处理异常数据
- T检验或T测试(T-test)
- Scikit-learn实现隔离森林(Isolation Forest)算法进行异常值检测
- Scikit-learn实现局部异常因子(LOF)的无监督异常值检测
- 异常检测方法
- 隔离森林(Isolation Forest)算法
以上文章都可以在本人的Big Data Analysis文章类别里找到,是本人精心汇总的知识,感谢大家阅读,有错误欢迎指出。
后续会增加该系列文章。