特征工程-异常值

 

3 sigma法:

正态分布关于均值μ对称,数值分布在(μ-σ,μ+σ)中的概率为0.6827,数值分布在(μ-3σ,μ+3σ)中的概率为0.9973。也就是说只有0.3%的数据会落在均值的±3σ之外,这是一个小概率事件。

箱型图法:

正态分布的参数μ和σ易受到个别异常值的影响,从而影响判定的有效性,因此产生了箱型图法。IQR,即四分位间距Q3-Q1。(Q1, Q3)涵盖了数据分布最中间的50%的数据,具有稳健性。数据落在 (Q1-1.5*IQR, Q3+1.5*IQR) 范围内,则认为是正常值,在此范围之外的即为异常值。

基于聚类法:

如果该对象不强属于任何簇,那么该对象属于离群点。 (离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效这也是k-means算法的缺点,对离群点敏感)

基于近邻度法:

一个对象的离群点得分由到它的k-最近邻(KNN)的距离给定。

     缺点:需要O(m2)时间,大数据集不适用;

                对参数的选择也是敏感的:k太小,则少量的邻近离群点可能导致较低的离群点得分;k太大,则点数少于k的簇中所有的对象可能都成了离群点。

                不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。

基于密度法:

从基于密度的观点来说,离群点是在低密度区域中的对象。密度通常用邻近度定义。一种常用的定义密度的方法是,定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高,反之亦然。另一种密度定义是使用DBSCAN聚类算法使用的密度定义,即一个对象周围的密度等于该对象指定距离d内对象的个数。

描述性统计+经验法:

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值