RapidMiner

把这个Excel文件下载到你的电脑上。
要将下载的数据导入RapidMiner,单击Repository面板中的import data,然后按照向导中的步骤操作。
完成导入后,将数据以Titanic的形式存储在本地存储库中。

默认情况下,左上角的Repository面板是存储所有数据、流程和结果的地方。应该始终将数据导入存储库,特别是来自XLS或CSV等文件的数据。这将大大简化分析过程的设计,因为RapidMiner的存储库将描述元数据和数据一起存储。

单击Design选项卡返回到流程面板。
将导入的泰坦尼克数据从Repository面板拖放到Process面板中。

当您将数据从存储库拖动到流程中时,它将转换为数据加载操作符(在本例中是检索Titanic)。在运行流程之前,不会实际加载数据(或在每个操作符的圆形输出端口交付数据)。
A
将Retrieve Titanic的输出端口与流程面板右侧的结果端口(“res”)连接。
通过在端口之间拖动一条线,或者首先单击一个端口,然后单击另一个端口来建立连接。
E
在执行流程之后,只能看到交付到右侧结果端口之一的数据。如果您的进程没有至少一个到结果端口的连接,那么在执行它时将看不到任何结果!

按Run(左上角)执行进程。

一旦运行,您将自动切换到显示结果的结果视图。还记得吗?这些是与流程面板右侧的结果端口之一连接的操作符输出。在任何时候,单击Design选项卡返回到流程面板。

您刚刚导入了您的第一个数据集!从现在开始,每个教程都包括一些额外的问题-为了进一步提高你的技能-看看下面的挑战!

您可以在结果中看到数据。您能找出丢失的值是如何显示的吗?
Statistics选项卡显示列中的数据摘要。有多少人乘坐头等舱?有多少人在泰坦尼克号事故中丧生?
如果你喜欢的话,可以玩玩这些图表。你能看到一些有趣的模式吗?
找出女性支付的最高票价。
在上一篇教程中,我们学习了如何将数据导入RapidMiner存储库,它是所有数据、模型和流程的中央存储。在本教程中,我们将对泰坦尼克数据应用一个过滤器,只查看女性乘客。然后,我们可以轻松地对数据进行排序,找出女性支付的最高票价。然后你可以运用你的新技能来回答同样的问题。你认为乘客票价会有所不同吗?

将泰坦尼克数据从示例存储库拖到流程中。
在RapidMiner中,行称为示例,数据表称为示例集。您将在RapidMiner中找到这些术语,因此有必要立即学习它们。

有很多方法可以为女性找到最高的票价。在本教程中,您将从表中删除men或“从示例集中过滤示例”。

使用操作面板顶部的搜索框搜索筛选示例操作符。将筛选器示例拖放到流程面板中。
连接检索泰坦尼克的输出端口与过滤器示例的输入端口。
单击“筛选器示例”以选择它,然后单击“参数”面板中的“添加筛选器”以定义筛选器。

在左边选择Sex,在中间选择equals,在右边输入Female。你可以点击魔棒,从列表中选择女性,而不是打字。

无论何时向流程添加操作符,都应该立即连接它。请记住,数据在操作符之间流动,因此操作符的连接可以影响其参数。例如:如果没有连接到数据源,筛选操作符如何“知道”列的性别?

搜索并将排序操作符拖到进程中。
连接过滤器的输出和排序的输入。
单击Sort以选择它。在参数面板进行以下更改:
将属性名设置为乘客票价。
将排序方向改为递减。
将排序输出端口连接到流程面板右侧的结果端口。
运行流程并检查结果。

大多数操作符都具有定义操作符工作方式的设置。您可以在Parameters面板的右侧找到这些,在您通过单击选择操作符之后。

做得好!现在你可以看到泰坦尼克号上为女性支付的最高票价:这是乘客票价栏的第一项。

向两个新数据集问好…
让我们从泰坦尼克号上休息一下,了解一下数据准备中其他一些经常使用的任务,特别是合并和分组数据。我们将处理两个数据集:一个包含组织出售的产品,另一个包含事务(关于哪个客户购买了哪个产品的信息)。结合这些集合,我们可以回答关于购买最频繁的产品或谁是你最忠实的客户的问题。让我们开始…

在repository面板中展开样例存储库。接下来,展开示例存储库中的data文件夹以检索产品和事务数据。
将产品数据和事务数据从Samples - data文件夹拖到Process面板中。

请记住,RapidMiner在数据进入流程时将其转换为检索产品和检索事务操作符,但是在执行流程之前不会加载数据。

在操作符面板顶部的搜索框中搜索联接操作符。将Join拖到流程面板中。
将检索产品的输出端口连接到连接的输入端口(与哪个端口无关)。
将检索事务连接到另一个连接输入端口。

单击Join以选择它。在Parameters面板中,取消选择使用id属性作为键。出现key attributes字段。

单击编辑列表。为左右键属性选择产品ID。然后,单击Apply。

记住,在开始更改操作符的参数之前,一定要连接它们。您只能在连接完成后从列表中选择产品ID,否则操作员将不知道有哪些数据可用。

连接的结果将是一个表,显示每个事务及其产品细节。定义为联接的键属性的两个ID列定义了两个原始表的行之间的映射。

将聚合操作符拖到流程中。将它连接到Join的输出。
单击聚合以进行选择。在参数面板进行以下更改:
单击group by属性。然后,通过向右移动产品ID来选择它。单击Apply。
单击聚合属性。
在左侧框中选择Customer ID,并在右侧框中设置function to count。
在此对话框中,添加另一个条目产品名称,并将函数设置为模式。单击Apply

使用属性。
您几乎已经准备好在RapidMiner中构建您的第一个预测模型了!但首先,我们需要处理两个非常重要的操作,将数据集转换为更适合学习的格式。这一过程的开始与前一过程相同;这对你来说是一个很好的机会去实现你目前学到的东西。然后我们将创建一个新的数据列,并从数据中删除一些未使用的/不必要的列。

将事务和产品数据集拖动到流程中。
添加连接操作符。
连接所有的运营商。

指定要在连接的参数中使用的列。也就是说,取消选择使用id属性作为键,单击编辑列表,并使用产品id作为左右键属性。

添加生成属性操作符。
连接连接操作符。

在“生成属性”的参数中单击“编辑列表”以定义新属性(列)。将弹出一个对话框。
在对话框的左列中,为属性名输入Total。
在右栏中,为函数表达式键入Amount*Price。

将Select Attributes操作符添加到流程并连接它。更改参数如下:
将属性筛选器类型设置为子集。通常,这意味着操作符将只应用于您指定的那些属性(列)。在这里,这允许您选择保留在数据中的列的子集—所有其他列都将被删除。

单击Select属性。
在结果对话框中,选择客户ID、产品名称和总属性。如果列表为空,则您忘记先连接操作员…
运行的过程。

您正在成为数据融合的大师!您现在已经看到了一些最重要的数据预处理操作符:连接、聚合、筛选、排序、生成属性和选择属性。RapidMiner有更多的操作符,但这6个操作符是最常用的。
预测是什么?
将泰坦尼克数据拖放到这个过程中。
现在,将鼠标悬停在Retrieve操作符的输出端口上,等待一个小窗口弹出并显示关于泰坦尼克数据集的一些元数据。您从Statistics选项卡中了解的一些信息。
请注意底部表中的两个列Role和Type。

Ps:属性的角色描述机器学习操作符如何使用列。没有任何角色的属性(也称为“常规”属性)被用作训练的输入,而id属性通常被建模算法忽略,因为它们只被用作数据观察的惟一标识符。
每个属性都有一个类型,用于定义列的可能值(例如,如果值可以是标称值或数值值)。

添加一个离散化操作符并连接它。在它的参数:
将属性筛选器类型设置为single(即只处理其中一个属性)。
设置属性为Age。
设置箱子数为3。

添加Set Role操作符并连接它。

在参数中,对于幸存的属性名,将目标角色更改为label。
运行流程并检查结果。

伟大的工作!设置属性角色在很多方面都很有用(例如,用于标识类id属性或示例权重),但最常用的是定义标签,即应该根据其他属性预测哪个属性。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值