RapidMiner

最新推荐文章于 2024-08-27 07:45:00 发布

染恋桑年至久

最新推荐文章于 2024-08-27 07:45:00 发布

阅读量1.7k

点赞数 1

分类专栏： study

本文链接：https://blog.csdn.net/Ansel_i/article/details/103161293

版权

study 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

把这个Excel文件下载到你的电脑上。
要将下载的数据导入RapidMiner，单击Repository面板中的import data，然后按照向导中的步骤操作。
完成导入后，将数据以Titanic的形式存储在本地存储库中。

默认情况下，左上角的Repository面板是存储所有数据、流程和结果的地方。应该始终将数据导入存储库，特别是来自XLS或CSV等文件的数据。这将大大简化分析过程的设计，因为RapidMiner的存储库将描述元数据和数据一起存储。

单击Design选项卡返回到流程面板。
将导入的泰坦尼克数据从Repository面板拖放到Process面板中。

当您将数据从存储库拖动到流程中时，它将转换为数据加载操作符(在本例中是检索Titanic)。在运行流程之前，不会实际加载数据(或在每个操作符的圆形输出端口交付数据)。
A
将Retrieve Titanic的输出端口与流程面板右侧的结果端口(“res”)连接。
通过在端口之间拖动一条线，或者首先单击一个端口，然后单击另一个端口来建立连接。
E
在执行流程之后，只能看到交付到右侧结果端口之一的数据。如果您的进程没有至少一个到结果端口的连接，那么在执行它时将看不到任何结果!

按Run(左上角)执行进程。

一旦运行，您将自动切换到显示结果的结果视图。还记得吗?这些是与流程面板右侧的结果端口之一连接的操作符输出。在任何时候，单击Design选项卡返回到流程面板。

您刚刚导入了您的第一个数据集!从现在开始，每个教程都包括一些额外的问题-为了进一步提高你的技能-看看下面的挑战!

您可以在结果中看到数据。您能找出丢失的值是如何显示的吗?
Statistics选项卡显示列中的数据摘要。有多少人乘坐头等舱?有多少人在泰坦尼克号事故中丧生?
如果你喜欢的话，可以玩玩这些图表。你能看到一些有趣的模式吗?
找出女性支付的最高票价。
在上一篇教程中，我们学习了如何将数据导入RapidMiner存储库，它是所有数据、模型和流程的中央存储。在本教程中，我们将对泰坦尼克数据应用一个过滤器，只查看女性乘客。然后，我们可以轻松地对数据进行排序，找出女性支付的最高票价。然后你可以运用你的新技能来回答同样的问题。你认为乘客票价会有所不同吗?

将泰坦尼克数据从示例存储库拖到流程中。
在RapidMiner中，行称为示例，数据表称为示例集。您将在RapidMiner中找到这些术语，因此有必要立即学习它们。

有很多方法可以为女性找到最高的票价。在本教程中，您将从表中删除men或“从示例集中过滤示例”。

使用操作面板顶部的搜索框搜索筛选示例操作符。将筛选器示例拖放到流程面板中。
连接检索泰坦尼克的输出端口与过滤器示例的输入端口。
单击“筛选器示例”以选择它，然后单击“参数”面板中的“添加筛选器”以定义筛选器。

在左边选择Sex，在中间选择equals，在右边输入Female。你可以点击魔棒，从列表中选择女性，而不是打字。

无论何时向流程添加操作符，都应该立即连接它。请记住，数据在操作符之间流动，因此操作符的连接可以影响其参数。例如:如果没有连接到数据源，筛选操作符如何“知道”列的性别?

搜索并将排序操作符拖到进程中。
连接过滤器的输出和排序的输入。
单击Sort以选择它。在参数面板进行以下更改:
将属性名设置为乘客票价。
将排序方向改为递减。
将排序输出端口连接到流程面板右侧的结果端口。
运行流程并检查结果。

大多数操作符都具有定义操作符工作方式的设置。您可以在Parameters面板的右侧找到这些，在您通过单击选择操作符之后。

做得好!现在你可以看到泰坦尼克号上为女性支付的最高票价:这是乘客票价栏的第一项。

向两个新数据集问好…
让我们从泰坦尼克号上休息一下，了解一下数据准备中其他一些经常使用的任务，特别是合并和分组数据。我们将处理两个数据集:一个包含组织出售的产品，另一个包含事务(关于哪个客户购买了哪个产品的信息)。结合这些集合，我们可以回答关于购买最频繁的产品或谁是你最忠实的客户的问题。让我们开始…

在repository面板中展开样例存储库。接下来，展开示例存储库中的data文件夹以检索产品和事务数据。
将产品数据和事务数据从Samples - data文件夹拖到Process面板中。

请记住，RapidMiner在数据进入流程时将其转换为检索产品和检索事务操作符，但是在执行流程之前不会加载数据。

在操作符面板顶部的搜索框中搜索联接操作符。将Join拖到流程面板中。
将检索产品的输出端口连接到连接的输入端口(与哪个端口无关)。
将检索事务连接到另一个连接输入端口。

单击Join以选择它。在Parameters面板中，取消选择使用id属性作为键。出现key attributes字段。

单击编辑列表。为左右键属性选择产品ID。然后,单击Apply。

记住，在开始更改操作符的参数之前，一定要连接它们。您只能在连接完成后从列表中选择产品ID，否则操作员将不知道有哪些数据可用。

连接的结果将是一个表，显示每个事务及其产品细节。定义为联接的键属性的两个ID列定义了两个原始表的行之间的映射。

将聚合操作符拖到流程中。将它连接到Join的输出。
单击聚合以进行选择。在参数面板进行以下更改:
单击group by属性。然后，通过向右移动产品ID来选择它。单击Apply。
单击聚合属性。
在左侧框中选择Customer ID，并在右侧框中设置function to count。
在此对话框中，添加另一个条目产品名称，并将函数设置为模式。单击Apply

使用属性。
您几乎已经准备好在RapidMiner中构建您的第一个预测模型了!但首先，我们需要处理两个非常重要的操作，将数据集转换为更适合学习的格式。这一过程的开始与前一过程相同;这对你来说是一个很好的机会去实现你目前学到的东西。然后我们将创建一个新的数据列，并从数据中删除一些未使用的/不必要的列。

将事务和产品数据集拖动到流程中。
添加连接操作符。
连接所有的运营商。

指定要在连接的参数中使用的列。也就是说，取消选择使用id属性作为键，单击编辑列表，并使用产品id作为左右键属性。

添加生成属性操作符。
连接连接操作符。

在“生成属性”的参数中单击“编辑列表”以定义新属性(列)。将弹出一个对话框。
在对话框的左列中，为属性名输入Total。
在右栏中，为函数表达式键入Amount*Price。

将Select Attributes操作符添加到流程并连接它。更改参数如下:
将属性筛选器类型设置为子集。通常，这意味着操作符将只应用于您指定的那些属性(列)。在这里，这允许您选择保留在数据中的列的子集—所有其他列都将被删除。

单击Select属性。
在结果对话框中，选择客户ID、产品名称和总属性。如果列表为空，则您忘记先连接操作员…
运行的过程。

您正在成为数据融合的大师!您现在已经看到了一些最重要的数据预处理操作符:连接、聚合、筛选、排序、生成属性和选择属性。RapidMiner有更多的操作符，但这6个操作符是最常用的。
预测是什么?
将泰坦尼克数据拖放到这个过程中。
现在，将鼠标悬停在Retrieve操作符的输出端口上，等待一个小窗口弹出并显示关于泰坦尼克数据集的一些元数据。您从Statistics选项卡中了解的一些信息。
请注意底部表中的两个列Role和Type。

Ps：属性的角色描述机器学习操作符如何使用列。没有任何角色的属性(也称为“常规”属性)被用作训练的输入，而id属性通常被建模算法忽略，因为它们只被用作数据观察的惟一标识符。
每个属性都有一个类型，用于定义列的可能值(例如，如果值可以是标称值或数值值)。

添加一个离散化操作符并连接它。在它的参数:
将属性筛选器类型设置为single(即只处理其中一个属性)。
设置属性为Age。
设置箱子数为3。

添加Set Role操作符并连接它。

在参数中，对于幸存的属性名，将目标角色更改为label。
运行流程并检查结果。

伟大的工作!设置属性角色在很多方面都很有用(例如，用于标识类id属性或示例权重)，但最常用的是定义标签，即应该根据其他属性预测哪个属性。