RapidMiner Studio 自动模型

自动模型

无论您是刚开始使用RapidMiner,还是老手,Auto Model都可以让您的生活更轻松。Auto Model是RapidMiner Studio的扩展,可加速构建和验证模型的过程。最重要的是,它创建了一个您自己可以修改或投入生产的流程 - 没有黑盒子!

Auto Model解决了三大类问题:

预测
聚类
离群值
在预测类别中,您可以解决分类和回归问题。自动模型可帮助您评估数据,提供解决问题的相关模型,并在计算完成后帮助您比较这些模型的结果。

自动模型不仅可以帮助您获得结果; 它还可以帮助您理解这些结果,即使对于内部逻辑可能难以理解的深度学习等模型也是如此。在RapidMiner Studio中,“自动模型”显示为视图,位于“设计”视图,“结果”视图和“Turbo准备”旁边。

示例:预测泰坦尼克号上的生存

为了展示自动模型的工作原理,我们将使用与RapidMiner Studio捆绑的数据集之一,泰坦尼克号数据集,并使用它来预测泰坦尼克号的生存。要开始使用,请Auto Model按RapidMiner Studio顶部的按钮选择视图。

选择数据

启动自动模型后,第一步是从您的某个存储库中选择一个数据集。如果您的数据不在存储库中,请单击屏幕顶部显示“首先导入新数据”的链接。

在我们的示例中,泰坦尼克号数据集可以在Samples> 下找到data。选择此数据集,然后单击Next屏幕底部的。
在这里插入图片描述

选择任务

选择数据集后,您必须确定要解决的问题类型。Auto Model识别三个不同的任务:

  • 预测
  • 集群
  • 离群值

在我们的示例中,我们想要预测泰坦尼克号上的生存,因此您应该选择Predict,然后单击“生存”列,然后单击Next。
在这里插入图片描述

准备目标

由于“幸存”只有两个值,“是”或“否”,问题是分类问题。通常,对于分类问题,“自动模型”将显示一个条形图,其中包含每个类中的数据点数。当有十个以上的类时,只显示数据点最多的10个类。
在这里插入图片描述
最高兴趣等级
在Class of Highest Interest后来变得很重要,当结果呈现,因为性能值,如“精度”和“召回”需要知晓哪些类的应该被解释为“阳性”的结果。在我们关于泰坦尼克号的例子中,Class of Highest Interest是“是”。

将类映射到新值
此步骤包括将目标值从“是”和“否”重命名为其他值的选项。当有两个以上的类时,此选项可能更有用,因为它可用于组合类。输入新值时,请务必Enter按键完成。在我们的示例中,我们将忽略此选项。点击Next继续。

选择输入

并非所有数据列都可以帮助您进行预测。通过丢弃某些数据列,您可以加快模型速度和/或提高其性能。但是你如何做出这个决定呢?关键是你正在寻找模式。如果没有数据的某些变化和一些可辨别的模式,数据可能不会有用。

要注意的事项的快速摘要包括以下内容,其值显示在每个数据列的质量条旁边。

  • 与目标列过于接近或完全不相关的列(相关),
  • 几乎所有值都不同的列(ID-ness),
  • 几乎所有值都相同的列(稳定性),
  • 缺少值的列(缺失)。

自动模型使用颜色编码的状态气泡(红色/黄色/绿色)汇总情况。作为一般规则,最好至少取消选择那些具有红色状态气泡的列,但当然您可以取消选择您喜欢的任何列,而与其状态无关。机器学习模型的输入仅包括所选列。
在这里插入图片描述
在泰坦尼克号的情况下,“名称”和“票号”等同于ID。大多数乘客都缺少“客舱”值。因此,在构建模型时,应丢弃带有红色状态气泡的这三列。它们都没有帮助发现模式。

“Life Boat”有一个黄色的状态泡沫,因为此列中的数据与“Survived”高度相关。“救生艇”和“幸存者”实际上是同义词,因此最好从“救生艇”专栏中删除数据,让模型发现生存的根本原因。

换句话说,您希望该模型可以帮助您制定计划。一位乘客无法提前知道他是否会乘坐救生艇,因此不能成为该计划的一部分,但他可以决定支付多少钱,以及是否携带他的家人。

在此示例中,您还应该使用黄色状态气泡“Life Boat”取消选择数据,然后按Next。

型号类型

自动模型为您提供了一系列与您的问题相关的模型。如果没有时间限制,最好的选择可能是构建所有这些,并在完成后比较它们的性能。通常,您必须决定您的优先级:是完成模型的准确性,还是构建它所需的时间?Auto Model可帮助您达成合理的妥协。

在泰坦尼克号示例中,Auto Model提供以下模型:

  • 朴素贝叶斯
  • 广义线性模型
  • Logistic回归
  • 深度学习
  • 决策树
  • 随机森林
  • 渐变树(XGBoost)
  • 按下Run以构建模型并生成结果。
    在这里插入图片描述

结果

根据您的数据集和您选择的型号,您可能必须等待结果。顶部的进度条跟踪正在进行的计算的状态。您可以通过按下Stop按钮随时停止建模。中间结果在可用时显示,例如,在Comparison> 下Overview。

对于泰坦尼克号数据集,Gradient Boosted Trees(XGBoost)模型需要最长的构建时间,但它也是最准确的模型。请参阅Comparison> Overview比较模型的准确性和运行时间。鉴于Gradient Boosted Trees相对于深度学习的边际性能优势,以及相当长的运行时间,您可能更喜欢在这种情况下使用深度学习模型。
在这里插入图片描述

模拟器和其他有用的操作符

自动模型不仅可以帮助您获得结果; 它还可以帮助您了解这些结果。深度学习因创建准确但非直观的模型而臭名昭着; 见证Deep Learning>> 下显示的模型描述Model。在下文中,我们将使用Auto Model提供的一些有用的用户界面来探索深度学习模型。

模拟器

要获得更好的洞察力,请选择Deep Learning> Simulator。在这里,您将看到左侧是滑块和下拉列表的用户界面,右侧是条形图。对于其初始状态,模拟模拟器选择平均数据值。在泰坦尼克号上,这个平均值相当于一名30岁左右的三级男性乘客,船上的亲属相对较少。

根据右边的上方条形图,最可能出现的情况是这名乘客无法生存。他的生存概率是11%。下方的条形图解释了什么是对他的反对:最重要的是,这是他的性别和他的乘客等级,显示为绿色条。在这种情况下,绿色意味着性别和乘客阶级同意生存的预测,即“否”。乘客票价的红色条和船上的亲属意味着对预测的不同意见,因此与生存率呈正相关。
在这里插入图片描述
模拟模拟器的优点在于它是交互式的,因此您可以随意更改所有值,并立即看到对预测的影响。例如,将性别从男性改为女性,生存概率增加到大约50%。然后将乘客等级改为第一或第二,并且生存概率增加到超过90%。

通过操纵所有滑块和下拉列表,您可以快速为模型构建一些直觉,即使它是由Deep Learning构建的。

模拟模拟器通过分析单个数据点附近的模型行为(局部相关性)来创建预测。要查看哪些数据列全局最重要,请注意列名称下显示的灰色条(全局关联)。其中,最长的酒吧出现在Sex下,其次是乘客舱和乘客费。

有关更多信息,请参阅 Model Simulator文档。

Prescriptive Analytics

一个明显的下一个问题是:乘客如何优化他在泰坦尼克号上的生存机会?

在这里,Auto Model也有答案!在模拟器的左下角,有一个标有按钮的按钮Optimize。按此按钮,一组对话框可帮助您构建配方。由于泰坦尼克号上的男性比女性更有风险,让我们找到男性的生存策略。

按Optimize,然后执行以下步骤:

  1. 在Define Targets>下Class to optimize for,选择“是”。按Next。
  2. 在Define Constraints>下Constant Attributes,按+按钮,然后选择“性别”等于“男性”。按Next。
  3. 在Optimization Parameters,按下Run。
  4. 按Finish。
    结果立即显示在模拟器中,结论非常明显。在泰坦尼克号上拥有最大生存希望的男性乘客是一名4岁男孩,只有少数亲戚,在二等舱旅行。他的生存概率是91%。虽然上课绝对是泰坦尼克号上的一个问题,但即使是一个三等舱的男孩也有很大的生存机会,即68%,你可以从下拉列表中修改Passenger Class的价值。
    在这里插入图片描述
    模拟模拟器清楚地表明,泰坦尼克号上的乘客严格遵守救生艇上的“妇女和儿童第一”的理念。通过移动Age的滑块,您可以看到老年男性的生存概率不断下降。男性乘客的生存概率低于50%的年龄是班级的函数:
  • 三年级16岁
  • 二年级26岁
  • 头等舱39岁
    严格地说,我们还没有真正回答男乘客如何提高生存机会的问题。他的年龄已经给出,而且更昂贵的机票可能在经济上遥不可及。但是优化器和模拟模拟器一起让我们更好地理解了泰坦尼克号数据。

没有黑匣子

尽管Auto Model提供了许多有用的工具,但您可能希望亲眼看看!按Open Process模型模拟器的底部,用于构建模型的过程显示在RapidMiner的设计视图中。你可以运行这个过程,你可以修改这个过程,你可以做任何你喜欢的变化!Auto Model为您提供解决问题的工具,没有黑盒子。

为什么我们强调这一点?至少有三个原因:

  1. 如果不先了解模型,就永远不会将模型投入生产。您想要检查模型的工作原理,并向自己证明一切都是正确的。
  2. 新数据科学家可以通过检查过程来学习最佳实践。
  3. 专家数据科学家通过使用自动模型过程作为他们自己模型的起点,提高了生产力。
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值