最近看到数据分析师秋招时关于异常值处理的问题,小白上网搜了以下,特在此做一下总结。
何为异常值处理,小白要分异常值和处理两步来介绍。
异常值:对整体样本数据结构表达时,通常抓住整体样本一般性的性质,而在这些性质上与样本整体表达不一致的点,称其为异常点。
异常值有好有坏,我们可以疾病预测,信用欺诈,网络攻击等。
处理:包括检测和修正。检测共有7种,包括
1)简单统计
df.describe()
或者散点图
2.正太分布3∂原则
3.箱型图 ;四分位距(IQR)对异常值进行检测,也叫Tukey‘s test
4.基于模型的检测
5.基于近邻度的离群点检测
6 基于密度的离群点检测
7 基于聚类的离群点检测
8 专门的离群点检测
处理:
1.删除含有异常值的记录(是否删除根据实际情况考虑)
2 将异常值视为缺失值,利用缺失值的处理方法进行处理
3 平均值修正(前后两个观测值的平均值)
4 不处理(直接在具有异常值的数据集上进行挖掘)
总结:
以上是对异常值检测和处理方法的汇总,具体情况需要根据业务进行判断。