RapidMiner

把这个Excel文件下载到你的电脑上。
要将下载的数据导入RapidMiner,单击Repository面板中的import data,然后按照向导中的步骤操作。
完成导入后,将数据以Titanic的形式存储在本地存储库中。

默认情况下,左上角的Repository面板是存储所有数据、流程和结果的地方。应该始终将数据导入存储库,特别是来自XLS或CSV等文件的数据。这将大大简化分析过程的设计,因为RapidMiner的存储库将描述元数据和数据一起存储。

单击Design选项卡返回到流程面板。
将导入的泰坦尼克数据从Repository面板拖放到Process面板中。

当您将数据从存储库拖动到流程中时,它将转换为数据加载操作符(在本例中是检索Titanic)。在运行流程之前,不会实际加载数据(或在每个操作符的圆形输出端口交付数据)。
A
将Retrieve Titanic的输出端口与流程面板右侧的结果端口(“res”)连接。
通过在端口之间拖动一条线,或者首先单击一个端口,然后单击另一个端口来建立连接。
E
在执行流程之后,只能看到交付到右侧结果端口之一的数据。如果您的进程没有至少一个到结果端口的连接,那么在执行它时将看不到任何结果!

按Run(左上角)执行进程。

一旦运行,您将自动切换到显示结果的结果视图。还记得吗?这些是与流程面板右侧的结果端口之一连接的操作符输出。在任何时候,单击Design选项卡返回到流程面板。

您刚刚导入了您的第一个数据集!从现在开始,每个教程都包括一些额外的问题-为了进一步提高你的技能-看看下面的挑战!

您可以在结果中看到数据。您能找出丢失的值是如何显示的吗?
Statistics选项卡显示列中的数据摘要。有多少人乘坐头等舱?有多少人在泰坦尼克号事故中丧生?
如果你喜欢的话,可以玩玩这些图表。你能看到一些有趣的模式吗?
找出女性支付的最高票价。
在上一篇教程中,我们学习了如何将数据导入RapidMiner存储库,它是所有数据、模型和流程的中央存储。在本教程中,我们将对泰坦尼克数据应用一个过滤器,只查看女性乘客。然后,我们可以轻松地对数据进行排序,找出女性支付的最高票价。然后你可以运用你的新技能来回答同样的问题。你认为乘客票价会有所不同吗?

将泰坦尼克数据从示例存储库拖到流程中。
在RapidMiner中,行称为示例,数据表称为示例集。您将在RapidMiner中找到这些术语,因此有必要立即学习它们。

有很多方法可以为女性找到最高的票价。在本教程中,您将从表中删除men或“从示例集中过滤示例”。

使用操作面板顶部的搜索框搜索筛选示例操作符。将筛选器示例拖放到流程面板中。
连接检索泰坦尼克的输出端口与过滤器示例的输入端口。
单击“筛选器示例”以选择它,然后单击“参数”面板中的“添加筛选器”以定义筛选器。

在左边选择Sex,在中间选择equals,在右边输入Female。你可以点击魔棒,从列表中选择女性,而不是打字。

无论何时向流程添加操作符,都应该立即连接它。请记住,数据在操作符之间流动,因此操作符的连接可以影响其参数。例如:如果没有连接到数据源,筛选操作符如何“知道”列的性别?

搜索并将排序操作符拖到进程中。
连接过滤器的输出和排序的输入。
单击Sort以选择它。在参数面板进行以下更改:
将属性名设置为乘客票价。
将排序方向改为递减。
将排序输出端口连接到流程面板右侧的结果端口。
运行流程并检查结果。

大多数操作符都具有定义操作符工作方式的设置。您可以在Parameters面板的右侧找到这些,在您通过单击选择操作符之后。

做得好!现在你可以看到泰坦尼克号上为女性支付的最高票价:这是乘客票价栏的第一项。

向两个新数据集问好…
让我们从泰坦尼克号上休息一下,了解一下数据准备中其他一些经常使用的任务,特别是合并和分组数据。我们将处理两个数据集:一个包含组织出售的产品,另一个包含事务(关于哪个客户购买了哪个产品的信息)。结合这些集合,我们可以回答关于购买最频繁的产品或谁是你最忠实的客户的问题。让我们开始…

在repository面板中展开样例存储库。接下来,展开示例存储库中的data文件夹以检索产品和事务数据。
将产品数据和事务数据从Samples - data文件夹拖到Process面板中。

请记住,RapidMiner在数据进入流程时将其转换为检索产品和检索事务操作符,但是在执行流程之前不会加载数据。

在操作符面板顶部的搜索框中搜索联接操作符。将Join拖到流程面板中。
将检索产品的输出端口连接到连接的输入端口(与哪个端口无关)。
将检索事务连接到另一个连接输入端口。

单击Join以选择它。在Parameters面板中,取消选择使用id属性作为键。出现key attributes字段。

单击编辑列表。为左右键属性选择产品ID。然后,单击Apply。

记住,在开始更改操作符的参数之前,一定要连接它们。您只能在连接完成后从列表中选择产品ID,否则操作员将不知道有哪些数据可用。

连接的结果将是一个表,显示每个事务及其产品细节。定义为联接的键属性的两个ID列定义了两个原始表的行之间的映射。

将聚合操作符拖到流程中。将它连接到Join的输出。
单击聚合以进行选择。在参数面板进行以下更改:
单击group by属性。然后,通过向右移动产品ID来选择它。单击Apply。
单击聚合属性。
在左侧框中选择Customer ID,并在右侧框中设置function to count。
在此对话框中,添加另一个条目产品名称,并将函数设置为模式。单击Apply

使用属性。
您几乎已经准备好在RapidMiner中构建您的第一个预测模型了!但首先,我们需要处理两个非常重要的操作,将数据集转换为更适合学习的格式。这一过程的开始与前一过程相同;这对你来说是一个很好的机会去实现你目前学到的东西。然后我们将创建一个新的数据列,并从数据中删除一些未使用的/不必要的列。

将事务和产品数据集拖动到流程中。
添加连接操作符。
连接所有的运营商。

指定要在连接的参数中使用的列。也就是说,取消选择使用id属性作为键,单击编辑列表,并使用产品id作为左右键属性。

添加生成属性操作符。
连接连接操作符。

在“生成属性”的参数中单击“编辑列表”以定义新属性(列)。将弹出一个对话框。
在对话框的左列中,为属性名输入Total。
在右栏中,为函数表达式键入Amount*Price。

将Select Attributes操作符添加到流程并连接它。更改参数如下:
将属性筛选器类型设置为子集。通常,这意味着操作符将只应用于您指定的那些属性(列)。在这里,这允许您选择保留在数据中的列的子集—所有其他列都将被删除。

单击Select属性。
在结果对话框中,选择客户ID、产品名称和总属性。如果列表为空,则您忘记先连接操作员…
运行的过程。

您正在成为数据融合的大师!您现在已经看到了一些最重要的数据预处理操作符:连接、聚合、筛选、排序、生成属性和选择属性。RapidMiner有更多的操作符,但这6个操作符是最常用的。
预测是什么?
将泰坦尼克数据拖放到这个过程中。
现在,将鼠标悬停在Retrieve操作符的输出端口上,等待一个小窗口弹出并显示关于泰坦尼克数据集的一些元数据。您从Statistics选项卡中了解的一些信息。
请注意底部表中的两个列Role和Type。

Ps:属性的角色描述机器学习操作符如何使用列。没有任何角色的属性(也称为“常规”属性)被用作训练的输入,而id属性通常被建模算法忽略,因为它们只被用作数据观察的惟一标识符。
每个属性都有一个类型,用于定义列的可能值(例如,如果值可以是标称值或数值值)。

添加一个离散化操作符并连接它。在它的参数:
将属性筛选器类型设置为single(即只处理其中一个属性)。
设置属性为Age。
设置箱子数为3。

添加Set Role操作符并连接它。

在参数中,对于幸存的属性名,将目标角色更改为label。
运行流程并检查结果。

伟大的工作!设置属性角色在很多方面都很有用(例如,用于标识类id属性或示例权重),但最常用的是定义标签,即应该根据其他属性预测哪个属性。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: RapidMiner是一款功能强大的数据分析平台,可帮助用户高效地进行数据挖掘、机器学习和预测分析。RapidMiner中文手册是一份提供给用户的中文使用手册,方便用户更好地理解和使用RapidMiner软件。 RapidMiner中文手册内容详尽全面,从使用入门到高级数据建模技巧,覆盖了软件的各个功能模块和应用场景。手册以清晰易懂的语言编写,结合图文并茂的示例和操作步骤,为用户提供了全面的学习和参考资料。 手册首先介绍了RapidMiner的基本概念和界面,帮助用户熟悉软件的各个部分以及其功能。接着,手册详细介绍了数据整理和准备的方法,包括数据导入、数据清洗、特征选择等。同时,手册还介绍了常用的数据处理和转换技术,如数据聚类、分类、回归等。 此外,手册还专门介绍了RapidMiner中的机器学习算法及其应用,例如决策树、支持向量机、神经网络等。针对每个算法,手册详细解释了其原理和使用方法,并通过实例演示了具体的操作步骤。 除了基本的数据分析功能,RapidMiner中文手册还介绍了RapidMiner与其他工具的集成和扩展,如与Python和R语言的集成,以及如何自定义算法和运算符等。这些章节帮助用户更好地利用RapidMiner与其它工具和平台进行数据分析和集成开发。 总之,RapidMiner中文手册是一份详实的指南,对于想要学习和掌握RapidMiner数据分析平台的用户来说,是一本非常有用的参考书。无论是初学者还是专业人士,通过学习手册中的知识,用户可以更好地应用RapidMiner进行数据挖掘和机器学习,提高数据分析的效率和准确性。 ### 回答2: RapidMiner是一种强大的数据挖掘工具,它提供了一个直观的界面和丰富的功能,帮助用户从大量的数据中发现隐藏的模式和关联。对于中国用户来说,RapidMiner中文手册是一个宝贵的资源。 RapidMiner中文手册详细介绍了软件的安装与配置过程,以及如何使用各种功能和工具进行数据预处理、特征选择、模型建立等。对于初学者,手册提供了一个清晰的指南,帮助他们快速上手使用RapidMiner。 手册中还涵盖了各种数据挖掘技术和算法的详细解释,例如聚类分析、分类、回归、关联规则等。用户可以根据自己的需求选择适合的算法,并按照手册的指导进行操作。这样,用户不仅可以了解不同算法的原理和使用方法,还可以将其应用到自己的实际问题中。 此外,手册还包含了丰富的示例和案例,让用户能够更好地理解RapidMiner的应用场景和实际操作。这些示例涵盖了各个行业和领域,例如金融、零售、医疗等,帮助用户将理论知识与实际问题相结合,提高数据挖掘的准确性和效果。 总之,RapidMiner中文手册为中国用户提供了一个全面的学习和使用RapidMiner的指南。通过学习手册,用户可以快速掌握RapidMiner的功能和操作技巧,提升数据挖掘的能力,实现更好的数据分析和决策。 ### 回答3: RapidMiner是一款广泛使用的数据挖掘和机器学习工具,它具有友好的用户界面和强大的功能,可用于数据处理、模型建立、预测和评估。RapidMiner为用户提供了丰富的功能和组件,使得数据挖掘和机器学习变得更加简单和高效。 RapidMiner中文手册是RapidMiner官方提供的中文使用指南,旨在帮助用户更好地理解和使用RapidMiner软件。手册包含了详细的介绍和说明,涵盖了RapidMiner软件的各个方面,包括界面介绍、数据导入与预处理、数据转换与清洗、模型建立与评估、结果解释与可视化等内容。 手册以简洁明了的方式呈现了RapidMiner的功能和操作方法,用户可以通过手册快速上手,并深入了解每个功能的用法和效果。手册还提供了丰富的示例和案例分析,帮助用户理解和掌握数据挖掘和机器学习的基本原理和方法。 值得一提的是,RapidMiner中文手册还包含了一些高级主题,如特征选择、集成学习和模型优化等。这些主题对于希望进一步提升数据挖掘和机器学习技能的用户来说非常有用。 总之,RapidMiner中文手册是RapidMiner用户们学习和使用RapidMiner软件的重要参考资料。通过手册,用户可以更快速地掌握RapidMiner的使用技巧和数据挖掘、机器学习方法。无论是初学者还是有经验的用户,都可以通过手册获得更多的知识和技巧,提升数据挖掘和机器学习的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值