【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)

数据库中的数据由于各种原因常常会包含一些异常记录,对这些异常记录的检测和解释有很重要的意义。异常检测目前在入侵检测、工业损毁检测、金融欺诈、股票分析、医疗处理等领域都有着比较好的实际应用效果。异常检测的实质是寻找观测值和参照值之间有意义的偏差。离群点检测是异常检测中最常用的方法之一,是为了检测出那些与正常数据行为或特征属性差别较大的异常数据或行为

离群点的概念

离群点(Outlier)是指显著偏离一般水平的观测对象。离群点检测(或称异常检测)是找出不同于预期对象行为的过程。离群点的本质仍然是数据对象,但它与其他对象又显著差异,又被称为异常值

在上图中,大部分数据对象大致符合同一种数据产生机制,而区域R中的对象分布明显不同,不太可能与大部分数据对象符合同一种分布,因此在该数据集中,R中的对象是离群点

离群点不同于噪声数据。噪声是指被观测数据的随机误差或方差,观测值是真实数据与噪声的混合。而离群点属于观测值,既可能是真实数据产生,也有可能由噪声带来,许多数据分析和数据挖掘任务在离群点检测之前都要删除噪声

离群点的产生主要有以下原因

1. 第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体

2. 第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体

因此 在检测离群点时,要找到离群点产生的原因,通常的做法是在正常数据上进行各种假设,然后证明检测到的离群点

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

showswoller

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值