RapidMiner 异常/随机

这篇博客详细介绍了RapidMiner中两种异常检测方法:基于数据密度的异常检测和基于距离的异常检测,以及傅里叶变换、主成分分析等数据处理技术。这些方法在大数据分析中用于识别异常并进行特征提取。此外,还提到了决策树、随机森林等机器学习模型在分类任务中的应用。
摘要由CSDN通过智能技术生成

这里写图片描述

一、检测异常(密度)


1.概述

在基于数据密度的给定实例集中识别异常。

2.描述

这个操作符是一个DB异常检测算法,它为传递给此操作符的一个ExampleSet计算DB(p,D)-异常。根据Knorr 和Ng ,DB(p,D)-异常是基于距离的异常。一个DB(p,D)-异常是至少占所有对象的p部分中的一个对象,它比距离D更遥远。它执行一个全局异常搜索。当前,此操作符支持余弦,正弦或平均距离,以及由相应参数指定的欧几里得距离。这个操作符采用两个其他的实数值参数p和D。根据这些参数,在传递给此操作符的ExampleSet中,搜索对象将被创建。这些搜索对象将被添加到搜索空间,它们将根据DB(p,D)方案进行异常搜索。
异常状态(原本是布尔类型)被写入一个新的特殊属性“异常”中,并和实例集一起被传递。

3.输入

example set input: 期望: 实例集元数据: #examples: = 0; #attributes: 0

4.输出

example set output:
original:

5.参数

distance: 对象的距离。
proportion: 与 D 有关的对象的比例。
distance function: 表示哪个距离函数将用于计算两个对象之间的距离。

二、检测异常(距离)


1.概述

在基于到它们 k 最近邻距离的给定实例集中识别 n 个异常。

2.描述

按照Ramaswamy, Rastogi 和Shim在“大型数据集挖掘异常的高效算法”推荐的异常检测方法,这个操作符执行一个D^k_n异常搜索。它主要是一种基于距离测量的统计异常搜索,类似于Knorr 和NgDB(p,D)-异常搜索。但它通过第k个最近邻使用距离搜索,因此,它也实现了一些局部性的排序。
该方法声明,到第k个最近邻域有最大距离的对象有可能是常,分别对应于它们的数据集,因为它可以假设,这些对象比一般的对象有更多的稀疏邻域。由于根据它们的第k个近邻的距离,这有效的在数据集中提供了一个简单的所有对象的排列,用户可以在数据集中指定n个对象成为top-n异常。这个操作符支持余弦,正弦或平均距离,以及能由距离参数指定的欧几里得距离。这个操作符需要一个实例集,在一个新的特殊异常表明真(异常)和假(没有异常)的布尔值属性中传递一个布尔
top-n D^k异常状态。

3.输入

example set input: 期望 : 实例集元数据: #examples: = 0; #attributes: 0

4.输出

example set output:
original:

5.参数

number of neighbors: 为将被分析的第 k 个最近邻指定 k 值。(默认值是10,最小值设置为1,最大值设置为1万)
n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值