【数据清洗】异常点的理解与处理方法（1）

最新推荐文章于 2023-02-03 11:29:11 发布

weixin_30548917

最新推荐文章于 2023-02-03 11:29:11 发布

阅读量526

点赞数

原文链接：http://www.cnblogs.com/SevnChen/p/5024644.html

版权

异常点、高杠杆点、强影响点

异常点：残差很大的点；

高杠杆点：远离样本空间中心的点；

强影响点：改变拟合回归方程特征的点。

注意：

A点：非异常点、高杠杆点、非强影响点

B点：异常点、非高杠杆点、强影响点

C点：异常点、高杠杆点、强影响点

异常值处理：

简单的统计量分析

对变量做一个描述性统计，进而查看哪些数据是不合理的，最常用的统计量是最大值和最小值，用来判断这个变量的取值是否超出了合理的范围。如：客户年龄的最大值为199岁，则该变量存在异常。
3原则

若数据服从正态分布，在3原则下，异常值被定义：一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下，距离平均值3之外的值出现的概率为，属于极个别小概率事件。
箱型图分析

异常值定义：小于或大于的值。

：下四分位数

：上四分位数

：四分位数间距，上下四分位数之差，其间包含全部观测值的一半

异常检测的混合模型方法

步骤如下：

1：初始化：在时刻t=0，令G_t包含所有对象，而B_t为空；

令F(G_t,B_t)为好坏观测点划分的评价函数。

2： for 属于G_t的每个点x do

3：将x从G_t移动到B_t,产生新的数据集合G_t+1和B_t+1。

4：计算D的新的评价函数的值。

5：计算差值：= F(G_t+1,B_t+1)- F(G_t,B_t)

6： if ，其中c是某个阈值 then

7：将观测x分类为异常。

8： end if

9：end for

G可以理解为好的观测的集合，B理解为怀的观测的集合。

评价函数可以有很多种：如马氏距离、整个数据集的似然和对数似然等等

以马氏距离划分为例：

如果一种划分方式具有以下性质，我们认为这是合理的：

转载于:https://www.cnblogs.com/SevnChen/p/5024644.html

关注