RapidMiner 生成分析

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/imbenben/article/details/70546953

这里写图片描述

一、Select Attributes


概述

该操作符允许选择应是生成部分的属性。

描述

这个操作符选择ExampleSet的哪个属性应该被保持,哪个属性应该被删除。因此,参数属性过滤器类型可以选择不同的过滤器类型,并且只有符合这个条件的类型才会被选择。其余的将从ExampleSet.删除。有一个全局开关去反转结果,以致原本已被丢弃的属性将被保持,反之亦然。要反转选定,使用反转选择参数。

这些类型可用

all: 将简单的选择每个属性

single: 将允许你选择一个单一的属性名称。如果元数据已知,它可以从参数属性的下拉框中选择。

subset: 让你从列表中选择若干属性。如果没有元数据存在,这将不工作。每个已知的属性显示在列表中,并可能被选中。

regular_expression: 这使你指定一个正则表达式。每个属性,谁的名称与该表达式匹配,谁将被选中。正则表达式是一个非常强大的工具,但是初学者需要一个详细的说明。请参阅在互联网上公布的几个教程获取更详细说明。

value_type: 仅选择某一类型的属性。请提到属性是分层的:例如,二项式属性nomina和多项式一样。

block_type: 类似于value_type,这让你选择的属性取决于块类型。

no_missing_values: 将选择在任何实例中不包含缺失值的所有属性。

numeric_value_filter: 通过测试选择属性,如果所有实例的所有值符合此条件,或者,它们都不是数值。键入一个数值条件能指定数值条件。例如,参数字符串“>6”将保存每个实例中所有标称属性和所有数值属性的值大于6的。条件组合是可能的:”> 6 && < 11” or “<= 5 || < 0”。但是 && 和 ||绝不能混在一起。

输入

example set input: 期望 : 实例集元数据 : #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

attribute filter type: 该条件指定应选择或影响哪些属性。

attribute: 应该选择的属性。

attributes: 应该选择的属性。

regular expression: 属性名应保持的正则表达式。

use except expression: 如果启用,指定正则表达式的异常将被指定。虽然匹配第一个表达式,但是匹配这个的属性将被过滤。

except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式将被过滤。

use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类型,但该类型的属性将被过滤。

except value type: 该值类型除外。

block type: 该属性的块类型。

use block type exception: 如果启用,指定块类型的异常可能被指定。

except block type: 该块类型除外。

numeric condition: 条件的参数字符串,如 ‘>= 5’。

invert selection: 表示是否只接受通常被过滤的属性。

include special attributes: 表示是否该操作符也应应用于特殊属性。否则,它们始终保持不变。

二、生成聚集


概述

该操作符通过在每个实例中聚合其它属性的值,构造一个新属性。

描述

允许生成一个新属性,它包含其它几个属性的功能。作为功能,几个聚集属性可供使用。

输入

example set input: 期望 : 实例集元数据: #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

attribute name: 生成的属性名。

attribute filter type: 条件指定该操作符选择或影响哪些属性。

attribute: 应选择的属性。

attributes: 应选择的属性。

regular expression: 属性名保持不变的正则表达式。

use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,但匹配这个的属性将被过滤。

except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应该被过滤。

value type: 属性的值类型。

use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类型,但该类型的属性将被过滤。

except value type: 该值类型除外。

block type: 属性的块类型。

use block type exception: 如果启用,指定块类型的异常可能被指定。

except block type: 该块类型除外。

numeric condition: 条件的参数字符串,如 ‘>= 5’

invert selection: 表示是否只接受通常被过滤掉的属性。

include special attributes: 表示是否该操作符也适用于特殊属性。否则,它们保持不变。

aggregation function: 聚合属性值的函数。

keep all: 表示是否保持所有旧属性。

ignore missings: 表示是否缺失值将被忽视,或聚合应基于当前值。在后一种情况,聚合值在缺失值的情况下将丢失。

三、生成属性


概述

该操作符根据数学表达式构造新的用户定义的属性。

描述

这个操作符从输入ExampleSet和任意常数的属性构造新的属性。新属性的名称和它们的构造描述被定义在参数函数中。在构造描述中,属性名可能被用来作为变量。在这个操作符被应用的过程中,当每个单一实例的描述被评估时,这些变量将用实例的属性权重进行填充。请注意,为了使操作符正常工作,有一些属性名称限制:
属性名不允许包含括号
属性名不允许包含空格
属性名不允许带函数或操作符的名
如果标准常数(见下文)可用,类似“e”或“pi”的属性名不被允许如果这些条件不被满足,这些名字必须事先被改变,例如, Rename操作符。当替换几个属性遵循一个确定的模式时,Rename by Replacing证明是有用的。

支持的表达式:

如下的 操作符被支持:
加: +
减:-
乘:*
除:/
乘方:^
求模:%
小于:<
大于: >
小于等于: <=
大于等于: >=
等于: ==
不等于: !=
布尔非: !
布尔与: two ampers and
布尔或: ||
如下的 对数和指数函数 被支持:
自然对数: ln(x)
以10为底的对数: log(x)
以2为底的对数: ld(x)
指数(e^x): exp(x)
乘方: pow(x,y)

如下的 三角函数 被支持:

正弦函数: sin(x)
余弦函数:cos(x)
正切函数: tan(x)
反正弦函数: asin(x)
反余弦函数: acos(x)
反正切函数: atan(x)
反正切函数(带两个参数): atan2(x,y)
双曲正弦函数:sinh(x)
双曲余弦函数: cosh(x)
双曲正切函数: tanh(x)
反双曲正弦函数: asinh(x)
反双曲余弦函数: acosh(x)
反双曲正切函数: atanh(x)
如下的 统计函数被支持:
四舍五入函数:round(x)
四舍五入到p个小数函数: round(x,p)
向下取整函数:f floor(x)
向上取整函数: ceil(x)
平均数函数: avg(x,y,z…)
最小值函数:min(x,y,z…)
最大值函数: max(x,y,z…)

如下的 其它函数被支持:

If-Then-Else: if(cond,true-evaluation, false-evaluation)
绝对值函数: abs(x)
平方根函数: sqrt(x)
正负号函数(递交一个数的符号): sgn(x)
随机数函数(0和1之间): rand()
求模函数(x%y): mod(x,y)
求K个数之和函数: sum(x,y,z…)
二项式系数函数: binom(n, i)
数字转化成字符串函数: str(x)
String to Number: parse(x)
Substring: cut(x, start, len)

如下的 过程相关函数 被支持:

检索一个参数值: param(“operator”, “parameter”)
除了属性和上述提到的操作和功能函数,如果这被使用标准常数(默认:真)的相应参数指明,这
个操作符也支持常数pi和e。你也可以在公示中使用字符串(例如在条件if-formula中),但字符串值
必须在双引号内(“)。

例子

a1+sin(a2*a3) if (att1>5, att2*att3,-abs(att1))

输入

example set input: 期望 : 实例集元数据: #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

function descriptions: 函数生成的列表。
use standard constants: 表示是否类似于 e 或 pi 的标准常数可用。
keep all: 如果设置为真,所有的原始属性将保持,否则,它们从实例集中被删除。

四、生成串联


概述

通过连接两个值,合并两个属性到一个单一的新属性。

描述

这个操作符通过简单的连接两个值合并两个属性,并将这些新值存储到新属性中,它将是标称的。如果生成的值实际上是数字,你可以用相应的操作符改变值类型。

输入

example set input: 期望 : 实例集元数据 : #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

first attribute: 该合并的第一个属性。
second attribute: 该合并的第二个属性。
separator: 表示一个用作为两个值的分隔符的字符串。
trim values: 表示是否两个值应该被修整,即在合并执行前,应该删除前边和尾随的空格。

五、生成副本


概述

复制一个单个属性(仅是数据列的视图,而不是数据本身)。

描述

给给定的实例集添加一个单一属性副本。

输入

example set input: 期望 : 实例集元数据 : #examples: = 0; #attributes: 0

输出

example set output:
original:
参数
attribute name: 应该添加值的标称属性名。
new name: 新(复制)属性名。如果该参数丢失,只使用带有追加数字的相同名字 。

六、生成空属性


概述

用给定的名字和属性添加一个新属性到数据集。

描述

这个操作符为数据集创建一个新属性。新属性将有指定的名称和值类型(如标称或实
数)。请注意,所有的值恰好在创建后丢失,因此,类似于SetData的操作符必须用来改
变这种情况。

输入

example set input: 期望 : 实例集元数据: #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

name: 新属性的名称。
value type: 新属性的值类型。

七、生成ID*


概述

添加新的 id 属性到实例集中,每个实例用一个递增的数字标记。

描述

此操作符向给定的实例集添加一个ID属性。每个实例被递增的整数数字标记 。如果实例集已经包含一个id属性,在新属性添加之前,旧属性将被删除。

输入

example set input: 期望 : 实例集元数据 : #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

create nominal ids: 校准是否标称 ids (而不是整数 ids)应该被创建。

八、生成权重(分层)


概述

在实例上分布权重,使每个标签的权重总和相等。

描述

此操作符把实例权重分类,以致标签的所有实例权重总和相等。

输入

example set input: 期望 : 实例集元数据: #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

total weight: 在所有实例上分布的总权重。

展开阅读全文

没有更多推荐了,返回首页