异常值检验

异常值检验

什么是异常值

异常点(outlier)是一个数据对象,它明显不同于其他的数据对象,分为记录异常和非记录异常。

异常值检验的应用

信用卡欺诈检测、电信欺诈检测、网络入侵检测、故障检测。

怎样确定异常值
  1. 数据中有多少离群值(怎么界定)
  2. 方法往往是无人监督的,验证可能相当具有挑战性(就像聚类)
异常检测的方法
  1. 基于规则的方法
  2. 基于模型的方法

可视化判断
箱形图(1-D)和散点图(2-D)检验方法:
在这里插入图片描述
在这里插入图片描述
基于统计和规则
假设描述数据分布的参数模型
应用取决于的统计测试

  • 数据分布
  • 分布参数(如:平均值,方差)
  • 预期异常值的数量
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    特征变换
    意义:对于非高斯分布的数据,虽然也可以使用上面的算法,但效果不是很好,所以我们尽量将非高斯分布转化成(近似)高斯分布,然后再进行处理。
    在这里插入图片描述
    在这里插入图片描述
    假设检验

假设数据来自正态分布,检测单变量数据中的异常值
一次检测一个异常值,删除异常值,然后重复
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
基于距离的模型

最近邻法:计算每对数据点之间的距离
k近邻法:计算k邻近数据点之间的距离,不适宜低密度数据集情况
在这里插入图片描述
基于线性的模型

  • PCA的重构差异
    在这里插入图片描述
    基于非线性的模型
  • 基于聚类——DBSCAN
    孤立点即可视为异常点
  • iForest 孤立森林
    在这里插入图片描述
  • RNNs
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值