一、检测异常(密度)
1.概述
在基于数据密度的给定实例集中识别异常。
2.描述
这个操作符是一个DB异常检测算法,它为传递给此操作符的一个ExampleSet计算DB(p,D)-异常。根据Knorr 和Ng ,DB(p,D)-异常是基于距离的异常。一个DB(p,D)-异常是至少占所有对象的p部分中的一个对象,它比距离D更遥远。它执行一个全局异常搜索。当前,此操作符支持余弦,正弦或平均距离,以及由相应参数指定的欧几里得距离。这个操作符采用两个其他的实数值参数p和D。根据这些参数,在传递给此操作符的ExampleSet中,搜索对象将被创建。这些搜索对象将被添加到搜索空间,它们将根据DB(p,D)方案进行异常搜索。
异常状态(原本是布尔类型)被写入一个新的特殊属性“异常”中,并和实例集一起被传递。
3.输入
example set input: 期望: 实例集元数据: #examples: = 0; #attributes: 0
4.输出
example set output:
original:
5.参数
distance: 对象的距离。
proportion: 与 D 有关的对象的比例。
distance function: 表示哪个距离函数将用于计算两个对象之间的距离。
二、检测异常(距离)
1.概述
在基于到它们 k 最近邻距离的给定实例集中识别 n 个异常。
2.描述
按照Ramaswamy, Rastogi 和Shim在“大型数据集挖掘异常的高效算法”推荐的异常检测方法,这个操作符执行一个D^k_n异常搜索。它主要是一种基于距离测量的统计异常搜索,类似于Knorr 和NgDB(p,D)-异常搜索。但它通过第k个最近邻使用距离搜索,因此,它也实现了一些局部性的排序。
该方法声明,到第k个最近邻域有最大距离的对象有可能是常,分别对应于它们的数据集,因为它可以假设,这些对象比一般的对象有更多的稀疏邻域。由于根据它们的第k个近邻的距离,这有效的在数据集中提供了一个简单的所有对象的排列,用户可以在数据集中指定n个对象成为top-n异常。这个操作符支持余弦,正弦或平均距离,以及能由距离参数指定的欧几里得距离。这个操作符需要一个实例集,在一个新的特殊异常表明真(异常)和假(没有异常)的布尔值属性中传递一个布尔
top-n D^k异常状态。
3.输入
example set input: 期望 : 实例集元数据: #examples: = 0; #attributes: 0
4.输出
example set output:
original:
5.参数
number of neighbors: 为将被分析的第 k 个最近邻指定 k 值。(默认值是10,最小值设置为1,最大值设置为1万)
n