RapidMiner Studio 设计视图

RapidMiner Studio是一个用于预测分析的可视化工作流设计器,可为分析团队中的每个人提供数据科学和机器学习。

当您处理任何类型的新项目时,通常第一步是转到白板,在那里您将规划工作流程并确定实现目标的关键步骤。如果您是数据科学家,工作流程通常包括以下一个或多个步骤:

  • 导入数据
  • 准备数据
  • 建立一个模型
  • 验证模型
  • 应用模型

RapidMiner Studio在设计视图中以软件实现您的白板工作流程。设计视图包括许多面板。

  • 数据,进程和结果存储在存储库中。
  • 每个工作流程的基本要素都称为操作员。
  • 操作员通过端口连接。第一个的输出作为输入传递给第二个。
  • 一组连接的操作符可帮助您转换和分析数据,称为过程。
  • 可以通过更改其参数来修改运算符的行为。
  • 阅读“ 帮助”可以理解操作员的行为。

下面将更详细地研究这些术语中的每一个。

默认视图

在这里插入图片描述

处理

流程:一组连接的操作符,可帮助您转换和分析数据。

又称:流程,程序,管道,图表

您的目标是创建一个完成的过程,一组生成结果的连接的操作符。例如,您的流程可能会读取数据集并构建预测模型。连接所有操作员并设置其参数后,按下用户界面顶部的“运行” 运行箭头按钮,结果将显示在“ 结果视图”中。

正如运行流程中所讨论的,运行流程的方法不止一种。你可以运行它:

  • 本地
  • 在后台
  • 在RapidMiner服务器上
  • 在RapidMiner Server上,作为计划进程

随着流程规模的扩大,您需要一些方法来管理其复杂性。

  • 您可以通过将运算符组移动到单个运算符中来隐藏复杂性Subprocess。
  • 您可以通过运营商从另一个流程中运行流程Execute Process。

要将进程保存到存储库,请从主菜单中选择File> Save Process。

您可以通过首先将其导出到XML文件来轻松共享流程:

  • 要导出该过程,请选择File> Export Process。导出对话框允许您将文件另存为.rmp或.xml; 实际上,这两种文件格式都是相同的(XML)。
  • 要导入该过程,请选择File> Import Process。

端口

要构建进程,必须通过端口将每个运算符的输出连接到下一个运算符的输入。要连接两个端口,请单击它们。将鼠标悬停在端口以查看包含其他信息的工具提示。连接两个运算符时,需要确保第一个的输出端口与第二个的输入端口兼容,否则您将收到错误消息。操作员帮助中描述了每个操作员的输入和输出端口,并在入门词汇表中给出了完整的端口列表。

如果要在结果视图中查看结果,则必须将流程中的最后一个操作员连接到“处理面板”右侧的结果端口(“res”)。

提示:双击输出端口,它将连接到下一个可用结果(“res”)端口。

以下示例显示了一个简单的过程,其中来自Excel文件的数据是(1)读取,(2)存储在存储库中,(3)显示在结果视图中。

一个简单的过程

在这里插入图片描述
下面的屏幕截图显示了由Auto Model生成的更复杂的过程。

一个更复杂的过程

在这里插入图片描述

知识库

存储库:本地或远程存储数据,进程和结果的位置。

也称为:文件夹,工作区,项目

使用RapidMiner Studio时,您需要一个可以保存工作的地方。该库可用于存储:

  • 数据
  • 流程
  • 结果

存储库可以是本地的或 远程的,以便于组协作。它是存储流程的自然场所(File> Save Process); 是否将数据和结果保存在存储库中取决于您的用例。

首先,您的数据可能存在于文件或数据库中。RapidMiner Studio提供众多操作员来帮助您导入数据,例如,Read Excel 或Read Database。要启动“导入数据”向导,请Import Data在“存储库”面板中单击,或从主菜单中选择“ File> Import Data”。

给定数据和过程,您的结果总是可以重新生成,但可能有充分的理由将结果存储在存储库中:

  • 如果结果是基于大型数据集的复杂模型,则重新生成它将花费时间。
  • 如果您在RapidMiner Server上运行进程,则需要存储结果(使用Store运算符),因为RapidMiner Server 与RapidMiner Studio中的结果视图不同。

捆绑的存储库

对于新用户和有经验的用户,与RapidMiner Studio捆绑在一起的存储库是非常宝贵的资源。它们提供了大量的样本数据集和样本流程,以及解释性说明。

  • 该Training Resources库是一大组设计作为一个伴侣的培训课程和培训在在线数据集和流程的RapidMiner学院。我们鼓励您利用这些免费课程来练习您的技能。
    所述Samples库包含附加的数据集和过程,包括下时间序列的例子Samples> Time Series。
  • 该Community Samples库是我们的顶级用户在发布的数据集和处理的专门收集RapidMiner用户社区,而不是由RapidMiner队。每个进程都包含一个标题,命名作者,简要说明目的,并链接到它的起源线程。我们鼓励用户在使用之前阅读每个流程附带的在线会话,因为此存储库中的流程不一定按发布的方式运行。

运营商

运算符:进程的元素,每个运算符接受输入并根据参数的选择创建输出。

又称:函数,公式,节点

要有效地使用RapidMiner Studio,您必须了解其运算符。RapidMiner Studio包含数百个操作员,因此很大一部分任务是学习如何找到所需内容。与搜索一样,有两种主要策略: 分层搜索和关键字搜索。该RapidMiner社区也是支持的来源。

要验证您找到的操作员是否具有您期望的功能,请阅读“ 帮助”。

找到所需的操作员后,至少有3种方法可以将其输入到处理面板中。

  1. 拖放操作员

  2. 双击“运算符”

  3. 右键单击“运算符”,然后Insert Operator从上下文菜单中进行选择。

分层搜索

“ 操作员”面板中的文件夹层次结构反映了典型的数据科学工作流程:

  • 数据访问
  • 混纺
  • 净化
  • 造型
  • 评分
  • 验证
  • 效用
  • 扩展

通过打开这些文件夹及其子文件夹,您将了解可用的内容。

可以在docs网站上检查相同的层次结构,其中包括每个运营商的帮助。

关键词搜索

替代方案是关键字搜索。虽然操作员面板包含搜索字段,但建议的过程是使用用户界面右上角的全局搜索。全局搜索不仅可以找到操作员,还可以找到来自存储库的数据和进程,来自市场的扩展,甚至可以从菜单中获取的操作!
在这里插入图片描述
提示:当您悬停全局搜索显示的操作员时,该操作员的帮助将立即显示在“ 帮助”面板中。如果您首先最大化“帮助面板”,则可以快速扫描搜索中显示的所有操作员的“帮助”页面。

重新配置设计视图

要优化屏幕空间,您可以考虑重新组织面板。首先请注意,您可以右键单击与任何面板连接的选项卡,然后选择以下选项之一:

  • Detach - 面板与RapidMiner Studio分离。
  • Maximize - 面板填充分配给面板的整个空间。
  • Close - 面板已从用户界面中删除。

例如,如果需要更多空间来阅读“帮助”,则可以最大化“帮助”面板,然后再次单击“面板”选项卡以将用户界面还原到其原始状态。如果您不需要面板,可以关闭它。可以通过View> 下的菜单项恢复关闭的面板Show Panel。

通过拖放可以进行其他配置:

  • 面板可以调整大小
  • 面板可以移动
  • 面板可以显示为选项卡。

下表总结了可用的面板,其中大部分未显示,例如,XML面板,显示流程的XML表示。以粗体显示的面板是默认面板。要显示此列表中的面板,请从View> 下面的菜单中选择它Show Panel。

上下文 高级流程设置和宏

面板描述
应用对象模拟RapidMiner Server App环境
背景监视器管理后台流程和结果
云监视器管理云流程和结果
上下文高级流程设置和宏
数据编辑器提供类似电子表格的数据操作
救命所选运营商的文档
历史RapidMiner Server上进程的版本控制
日志查看录制的事件
已定义宏的实时概述
运营商所有操作员都可以添加到您的流程中
概观针对大型流程的缩小概述
参数在流程中配置操作员行为
问题查看流程中的潜在问题
处理在此处创建和设计您的流程
知识库管理您的数据和流程
资源监控显示当前使用的RAM
结果历史所有过程的历史记录都会导致本次会话
Server Monitor在RapidMiner Server上运行的进程
XML您的流程的XML表示
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值