RapidMiner Studio 自动模型

最新推荐文章于 2024-02-16 21:03:32 发布

weixin_42238387

最新推荐文章于 2024-02-16 21:03:32 发布

阅读量3.5k

点赞数 5

本文链接：https://blog.csdn.net/weixin_42238387/article/details/88949595

版权

自动模型

无论您是刚开始使用RapidMiner，还是老手，Auto Model都可以让您的生活更轻松。Auto Model是RapidMiner Studio的扩展，可加速构建和验证模型的过程。最重要的是，它创建了一个您自己可以修改或投入生产的流程 - 没有黑盒子！

Auto Model解决了三大类问题：

预测
聚类
离群值
在预测类别中，您可以解决分类和回归问题。自动模型可帮助您评估数据，提供解决问题的相关模型，并在计算完成后帮助您比较这些模型的结果。

自动模型不仅可以帮助您获得结果; 它还可以帮助您理解这些结果，即使对于内部逻辑可能难以理解的深度学习等模型也是如此。在RapidMiner Studio中，“自动模型”显示为视图，位于“设计”视图，“结果”视图和“Turbo准备”旁边。

示例：预测泰坦尼克号上的生存

为了展示自动模型的工作原理，我们将使用与RapidMiner Studio捆绑的数据集之一，泰坦尼克号数据集，并使用它来预测泰坦尼克号的生存。要开始使用，请Auto Model按RapidMiner Studio顶部的按钮选择视图。

选择数据

启动自动模型后，第一步是从您的某个存储库中选择一个数据集。如果您的数据不在存储库中，请单击屏幕顶部显示“首先导入新数据”的链接。

在我们的示例中，泰坦尼克号数据集可以在Samples> 下找到data。选择此数据集，然后单击Next屏幕底部的。
在这里插入图片描述

选择任务

选择数据集后，您必须确定要解决的问题类型。Auto Model识别三个不同的任务：

预测
集群
离群值

在我们的示例中，我们想要预测泰坦尼克号上的生存，因此您应该选择Predict，然后单击“生存”列，然后单击Next。
在这里插入图片描述

准备目标

由于“幸存”只有两个值，“是”或“否”，问题是分类问题。通常，对于分类问题，“自动模型”将显示一个条形图，其中包含每个类中的数据点数。当有十个以上的类时，只显示数据点最多的10个类。
在这里插入图片描述
最高兴趣等级
在Class of Highest Interest后来变得很重要，当结果呈现，因为性能值，如“精度”和“召回”需要知晓哪些类的应该被解释为“阳性”的结果。在我们关于泰坦尼克号的例子中，Class of Highest Interest是“是”。

将类映射到新值
此步骤包括将目标值从“是”和“否”重命名为其他值的选项。当有两个以上的类时，此选项可能更有用，因为它可用于组合类。输入新值时，请务必Enter按键完成。在我们的示例中，我们将忽略此选项。点击Next继续。

选择输入

并非所有数据列都可以帮助您进行预测。通过丢弃某些数据列，您可以加快模型速度和/或提高其性能。但是你如何做出这个决定呢？关键是你正在寻找模式。如果没有数据的某些变化和一些可辨别的模式，数据可能不会有用。

要注意的事项的快速摘要包括以下内容，其值显示在每个数据列的质量条旁边。

与目标列过于接近或完全不相关的列（相关），
几乎所有值都不同的列（ID-ness），
几乎所有值都相同的列（稳定性），
缺少值的列（缺失）。

自动模型使用颜色编码的状态气泡（红色/黄色/绿色）汇总情况。作为一般规则，最好至少取消选择那些具有红色状态气泡的列，但当然您可以取消选择您喜欢的任何列，而与其状态无关。机器学习模型的输入仅包括所选列。
在这里插入图片描述
在泰坦尼克号的情况下，“名称”和“票号”等同于ID。大多数乘客都缺少“客舱”值。因此，在构建模型时，应丢弃带有红色状态气泡的这三列。它们都没有帮助发现模式。

“Life Boat”有一个黄色的状态泡沫，因为此列中的数据与“Survived”高度相关。“救生艇”和“幸存者”实际上是同义词，因此最好从“救生艇”专栏中删除数据，让模型发现生存的根本原因。

换句话说，您希望该模型可以帮助您制定计划。一位乘客无法提前知道他是否会乘坐救生艇，因此不能成为该计划的一部分，但他可以决定支付多少钱，以及是否携带他的家人。

在此示例中，您还应该使用黄色状态气泡“Life Boat”取消选择数据，然后按Next。

型号类型

自动模型为您提供了一系列与您的问题相关的模型。如果没有时间限制，最好的选择可能是构建所有这些，并在完成后比较它们的性能。通常，您必须决定您的优先级：是完成模型的准确性，还是构建它所需的时间？Auto Model可帮助您达成合理的妥协。

在泰坦尼克号示例中，Auto Model提供以下模型：

朴素贝叶斯
广义线性模型
Logistic回归
深度学习
决策树
随机森林
渐变树（XGBoost）
按下Run以构建模型并生成结果。

结果

根据您的数据集和您选择的型号，您可能必须等待结果。顶部的进度条跟踪正在进行的计算的状态。您可以通过按下Stop按钮随时停止建模。中间结果在可用时显示，例如，在Comparison> 下Overview。

对于泰坦尼克号数据集，Gradient Boosted Trees（XGBoost）模型需要最长的构建时间，但它也是最准确的模型。请参阅Comparison> Overview比较模型的准确性和运行时间。鉴于Gradient Boosted Trees相对于深度学习的边际性能优势，以及相当长的运行时间，您可能更喜欢在这种情况下使用深度学习模型。
在这里插入图片描述

模拟器和其他有用的操作符

自动模型不仅可以帮助您获得结果; 它还可以帮助您了解这些结果。深度学习因创建准确但非直观的模型而臭名昭着; 见证Deep Learning>> 下显示的模型描述Model。在下文中，我们将使用Auto Model提供的一些有用的用户界面来探索深度学习模型。

模拟器

要获得更好的洞察力，请选择Deep Learning> Simulator。在这里，您将看到左侧是滑块和下拉列表的用户界面，右侧是条形图。对于其初始状态，模拟模拟器选择平均数据值。在泰坦尼克号上，这个平均值相当于一名30岁左右的三级男性乘客，船上的亲属相对较少。

根据右边的上方条形图，最可能出现的情况是这名乘客无法生存。他的生存概率是11％。下方的条形图解释了什么是对他的反对：最重要的是，这是他的性别和他的乘客等级，显示为绿色条。在这种情况下，绿色意味着性别和乘客阶级同意生存的预测，即“否”。乘客票价的红色条和船上的亲属意味着对预测的不同意见，因此与生存率呈正相关。
在这里插入图片描述
模拟模拟器的优点在于它是交互式的，因此您可以随意更改所有值，并立即看到对预测的影响。例如，将性别从男性改为女性，生存概率增加到大约50％。然后将乘客等级改为第一或第二，并且生存概率增加到超过90％。

通过操纵所有滑块和下拉列表，您可以快速为模型构建一些直觉，即使它是由Deep Learning构建的。

模拟模拟器通过分析单个数据点附近的模型行为（局部相关性）来创建预测。要查看哪些数据列全局最重要，请注意列名称下显示的灰色条（全局关联）。其中，最长的酒吧出现在Sex下，其次是乘客舱和乘客费。

有关更多信息，请参阅 Model Simulator文档。

Prescriptive Analytics

一个明显的下一个问题是：乘客如何优化他在泰坦尼克号上的生存机会？

在这里，Auto Model也有答案！在模拟器的左下角，有一个标有按钮的按钮Optimize。按此按钮，一组对话框可帮助您构建配方。由于泰坦尼克号上的男性比女性更有风险，让我们找到男性的生存策略。

按Optimize，然后执行以下步骤：

在Define Targets>下Class to optimize for，选择“是”。按Next。
在Define Constraints>下Constant Attributes，按+按钮，然后选择“性别”等于“男性”。按Next。
在Optimization Parameters，按下Run。
按Finish。
结果立即显示在模拟器中，结论非常明显。在泰坦尼克号上拥有最大生存希望的男性乘客是一名4岁男孩，只有少数亲戚，在二等舱旅行。他的生存概率是91％。虽然上课绝对是泰坦尼克号上的一个问题，但即使是一个三等舱的男孩也有很大的生存机会，即68％，你可以从下拉列表中修改Passenger Class的价值。

模拟模拟器清楚地表明，泰坦尼克号上的乘客严格遵守救生艇上的“妇女和儿童第一”的理念。通过移动Age的滑块，您可以看到老年男性的生存概率不断下降。男性乘客的生存概率低于50％的年龄是班级的函数：