机器学习算法在钻速预测优化方面的应用 ---- 02 离群点处理算法研究

离群点处理算法研究

离群点,也被称为异常点,一般指远离正常样本、分布较为稀疏的样本点。在机器学习解决一般问题的过程中,离群点会影响模型对正常样本的拟合效果,因此需要在训练模型之前先将其去除。

基于统计方法的一元离群点检测方法研究

离群点检测,比较简单常用方法就是基于一元数据进行统计分析根据一元数据的统计分布特性寻找数据中可能存在异常点常用的基于统计方法的一元离群点分析方法主要有3σ法中位数绝对偏差法

3σ法,又称标准差法,σ表示数据的标准差。在数据服从正态分布的假设下99.7%的数据都位于区间[μ-3σ,μ+3σ]内不在此区间内的数据值就可以简单地认为是离群点,其中μ为数据的平均值。3σ法标记离群点的基本流程如下
1)计算单变量数据的平均值μ、方差σ
2)计算μ-3σ和μ+3σ的取值确定统计意义上正常数据点的范围
3)将区间[μ-3σ,μ+3σ]之外的数据点标记为离群点

MAD是对数据的统计离散性的一种度量,鲁棒性更好(鲁棒性体现在,与标准差相比,他受数据集中的异常值的影响较小)
通常情况下,MAD可以作为标准差〇■的一个一致性估计,二者之间的关系如下:
σ=k*MAD
其中,K为常数因子,根据数据分布的不同有不同的取值,对于正态分布,通常取K=1.4826。因此上面3σ方法中的标准差可以使用MAD进行替代。使用MAD方法标记离群点的基本流程如下:
1)计算单变量数据集中数据的中位数平均值μ
2)计算各数据点与中位数之间的残差。
3)计算残差的中位数,即为MAD
4)计算μ+3σ*1.4826*MAD和μ-3σ*1.4826*MAD的取值,确定统计意义上正常数据点的范围。
5)将区间[μ+3σ*1.4826*MAD,μ-3σ*1.4826*MAD]之外的数据点标记为离群点。

多元离群点检测算法研究

Elliptic Envelop算法
基于统计学方法,可以将离群点分析从一元数据扩展到多元数据,其思想与对一元数据的分析类似,即假设正常样本点服从某种己知的分布(例如高斯分布),基于这种分布,我们通常可以定义数据在高维空间中的“形状”从而,如果一个观测样本点背离了己知分布的“形状”,则可以认为该观测样本点是一个异常点或离群点。Elliptic Envelop算法就应用了上述思想,根据观测样本数据拟合了一个鲁棒性的协方差估计量,然后使用它为中心数据点拟合一个椭圆形的数据边界,则边界之外的观测样本点就被标记为离群点

Isolation Forest算法
Isolation Forest算法是一种基于模型的离群点检测方法,当前的大部分离群点处理方法都是通过为正常观测样本拟合出一个“边界”,通过观测样本是否位于边界内部,从而区分正常数据和异常数据。但是Isolation Forest算法是通过显式地孤立异常样本来实现异常点或离群点的检测的。为了实现该目标,Isolation Forest算法利用了离群点的两种数量特征:
1)离群点样本数量较少。
2)离群点样本的属性取值与正常样本相差较大
对于一个给定的数据集,Isolation Forest算法在应用过程中的主要流程如下:
1)通过放回或不放回采样,将原数据集分为多个大小相同的子集
2)对每一个子集通过递归二分分割构造一个树结构,称为iTree。多个iTree构成森林
3)在iTree的构建过程即数据集的分割过程中,会从样本中随机选择一个属性,然后从该属性的最大值和最小值之间随机选择一个值对数据集进行分割
4)递归地执行3)直至所有的样本都被分割开,或树达到了指定高度。
5)根据样本点在各iTree中的路径长度计算该样本点在森林中的平均路径长度
6)选取一定比例的、路径较短的样本点,标记为离群点。该算法中只有两个变量:iTree的数量和每棵树的采样大小。通常情况下,只需要少量的iTree和采样点就可以对离群点实现高效、准确的标记。

基于聚类方法的离群点检测算法研究

无监督聚类方法也能够实现离群点检测。具体流程如下:
1)首先使用聚类算法将观测样本点聚成N个类,得到每个类别的聚类中心Cn,n=0,…,N。
2)计算每个聚类中各个样本点与其对应的聚类中心Cn之间的欧式距离din这些距离组成一个距离集合N个聚类得到N个距离集合,Di,i=0,…,N。
3)计算每个距离集合的中位数dmn
4)在每个聚类中,将din/dmn>δ的样本点标记为离群点,其中δ表示正常观测样本点与离群样本点分界的阈值
值得注意的是,3)中选取的是每一个距离集合的中位数,而不是平均数

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值