发现与大部分其他对象显著不同的对象,大部分数据挖掘将这种差异视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含更大的研究价值
# 成因: 数据来源于不同的类,自然变异、数据测量和收集误差
# 离群点的类别
# 从数据范围 全局离群点和局部离群点
# 从数据类型 数值型离群点和类型离群点
# 从属性的个数 一维离群点和多维离群点(一个对象可能有多个属性)
# 常用离群点检测方法
# 基于统计 构建一个概率分布模型,并且计算符合对象的模型概率,具有低概率的点视为离群点
# 基于邻近度 数据对象之间定义邻近度量,把远离大部分的点的对象视为离群点
# 密度常用邻近度
# 一种是定义密度为K个最邻近的平均距离的倒数,如果该距离越小,则密度越高
# 使用DBSCAN聚类算法,一个对象周围的密度等于对象指定距离d对象的个数
# 基于密度 离群点是低密度区域中的对象
# 基于聚类 丢弃远离其他簇的小簇/先聚类所有对象,然后评估对象数据簇的程度
使用K-Means算法聚类消费离群点数据
利用表中的数据进行聚类,并计算各个样本到各个中心的距离,分析离群样本,得到距离误差图,如果距离阈值为2的话,有8个离群点