尽管基于分数的输出比二进制输出更通用,但是它们在实际应用中的局限性超出了发现哪些点是离群值的二进制问题。 使用二进制输出的优点是可以修剪许多O(N^2)计算。 因此,仅将得分最高的点报告为离群值,我们不在乎非离群点的分数。 这可以通过指定最近邻居距离的最小阈值(分数),也可以通过在k最近邻距离的rank上使用一个最大阈值来实现。 前者的参数化给分析人员带来了挑战,就是选择预先确定的绝对距离阈值的(可能是非直观的)值(这个值可以通过计算数据点样本的离群点分数,并根据这些分数的均值和标准差设置估计值)。
基于距离的离群值的最初基于阈值的定义是基于用分数f和距离阈值β对其进行参数化的:
定义1:Score Threshold-Based Distance Outliers 基于分数阈值的距离离群值
An object O in a data set D is a DB ( f, β ) outlier, if at least fraction f of the objects in D lies greater than distance β from O .如果数据集D中的数据对象的分数 f 至少比Oβ更大,则数据集D中的数据对象是一个DB(f,β)离群值。
注意,基于分数的算法具有与最近邻的第k个参数相对应的单个参数k,而二进制阈值算法具有
两个参数f和β。
参数f实际上等效于在原始定义中使用类似k的参数。 除了使用分数f,我们可以通过设置 k = N(1- f)来使用
精确的第k个最近邻居距离。 为了使本章中的讨论保持一致,我们以第k个最近邻居距离的方式重新陈述了该定义:
定义2:Score Threshold-Based Distance Outliers 基于分数阈值的距离离群值
An object in a data set D is an outlier, if its exact k th-nearest neighbor distance is at least β .如果精确的第k个最近邻距离至少为β,则数据集D中的数据对象是一个离群值。
第二个定义是基于top-r阈值的,而不是分数的绝对值的阈值。因此,数据点是按照k最近邻距离的降序排列的。这些top-r的数据点即为异常值。因此,阈值是在距离排序上的,而不是在距离值上的。
定义3:Rank Threshold-Based Distance Outliers 基于排序阈值的距离离群值
An object in a data set D is an outlier, if its exact k th-nearest neighbor distance is among the top- r such valuesin the data set.如果数据集D中的对象的精确的第k个最近邻的距离在数据集中的前 r个值中,则该对象为异常值。
除了提供给用户的参数选择外,这两个定义实际上是相同的。 实际上,对于距离阈值β的每种选择,可以选择适当的r值,以便在两种情况下产生相同的结果。
计算二进制输出比评分输出的主要优点是,我们可以
将异常检测过程与剪枝方法相结合,使该方法更加有效。
在所有上述定义中,由于该定义在文献中的优势,我们使用了
精确的k近邻距离。 然而,上述所有定义和一些相关的剪枝方法都可以推广到
平均k近邻距离。 在下面,我们将讨论精确k近邻距离的各种剪枝方法,并研究它们对平均k近邻距离的推广。