异常值对模型的影响有时是比较显著地,去掉噪声/异常值有利于提升训练结果。关键是定义什么是异常值/噪声,以及如何去掉他。
通过业务理解分析去除噪声.
异常值检测:
异常点检测,采用异常点检测算法对样本进行分析:
a.常用的异常点检测算法包括偏差检测,例如聚类,最近邻等;
b.基于统计的异常点检测算法,例如极差,四分位数间距,均差,标准差等;
c.基于距离的异常点检测算法,主要通过距离方法来检测异常点,将数据集中与大多数点之间距离大于某个阈值的点视为异常点,主要使用的距离度量方法有绝对距离(曼哈顿距离)、欧氏距离和马氏距离等方法;
d.基于密度的异常点检测算法,考察当前点周围密度,可以发现局部异常点,例如LOF算法。
e.其他异常检测算法,如Isolation Forest算法.
一种实用的可视化异常值检测方法: