RapidMiner 异常/随机

最新推荐文章于 2024-08-27 07:45:00 发布

「已注销」

最新推荐文章于 2024-08-27 07:45:00 发布

阅读量2.5k

点赞数 1

分类专栏： RapidMiner 文章标签：异常对象 RapidMiner 大数据分析

本文链接：https://blog.csdn.net/imbenben/article/details/70597020

版权

这篇博客详细介绍了RapidMiner中两种异常检测方法：基于数据密度的异常检测和基于距离的异常检测，以及傅里叶变换、主成分分析等数据处理技术。这些方法在大数据分析中用于识别异常并进行特征提取。此外，还提到了决策树、随机森林等机器学习模型在分类任务中的应用。

摘要由CSDN通过智能技术生成

这里写图片描述

一、检测异常（密度）

1.概述

在基于数据密度的给定实例集中识别异常。

2.描述

这个操作符是一个DB异常检测算法，它为传递给此操作符的一个ExampleSet计算DB(p,D)-异常。根据Knorr 和Ng ，DB(p,D)-异常是基于距离的异常。一个DB(p,D)-异常是至少占所有对象的p部分中的一个对象，它比距离D更遥远。它执行一个全局异常搜索。当前，此操作符支持余弦，正弦或平均距离，以及由相应参数指定的欧几里得距离。这个操作符采用两个其他的实数值参数p和D。根据这些参数，在传递给此操作符的ExampleSet中，搜索对象将被创建。这些搜索对象将被添加到搜索空间，它们将根据DB(p,D)方案进行异常搜索。
异常状态（原本是布尔类型）被写入一个新的特殊属性“异常”中，并和实例集一起被传递。

3.输入

example set input: 期望: 实例集元数据: #examples: = 0; #attributes: 0

4.输出

example set output:
original:

5.参数

distance: 对象的距离。
proportion: 与 D 有关的对象的比例。
distance function: 表示哪个距离函数将用于计算两个对象之间的距离。

二、检测异常（距离）

1.概述

在基于到它们 k 最近邻距离的给定实例集中识别 n 个异常。

2.描述

按照Ramaswamy， Rastogi 和Shim在“大型数据集挖掘异常的高效算法”推荐的异常检测方法，这个操作符执行一个D^k_n异常搜索。它主要是一种基于距离测量的统计异常搜索，类似于Knorr 和NgDB(p,D)-异常搜索。但它通过第k个最近邻使用距离搜索，因此，它也实现了一些局部性的排序。
该方法声明，到第k个最近邻域有最大距离的对象有可能是常，分别对应于它们的数据集，因为它可以假设，这些对象比一般的对象有更多的稀疏邻域。由于根据它们的第k个近邻的距离，这有效的在数据集中提供了一个简单的所有对象的排列，用户可以在数据集中指定n个对象成为top-n异常。这个操作符支持余弦，正弦或平均距离，以及能由距离参数指定的欧几里得距离。这个操作符需要一个实例集，在一个新的特殊异常表明真（异常）和假（没有异常）的布尔值属性中传递一个布尔
top-n D^k异常状态。