数据挖掘产品 IBM SPSS Modeler 新手使用入门

IBM SPSS Modeler是一款数据挖掘工具,用于建立预测模型以改进决策。它提供了各种机器学习和统计方法,如节点、数据流等概念。用户可以通过节点选项板选择操作,如数据源、建模、输出等。建模涉及决策树、聚类等算法,可通过源、类型、建模、输出等节点创建数据流。通过模型块和分析节点评估模型的准确性,并使用评分来预测未知数据。自动分类器节点可以自动创建和比较多个模型,提高预测准确性和效率。
摘要由CSDN通过智能技术生成

IBM SPSS Modeler 简介

作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。随着于 2010 年其新版本 14.1 的发布,名字也由 PASW Modeler 更名为现在的 IBM SPSS Modeler

SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。每种方法各有所长,同时适用于解决特定类型的问题。

初次上手

典型的 SPSS Modeler 界面如下:

图 1. SPSS Modeler 界面
图 1. SPSS Modeler 界面

接下来将详细介绍其基本概念及操作。

基本概念:节点

节点代表要对数据执行的操作。

例如,假定您需要打开某个数据源、添加新字段、根据新字段中的值选择记录,然后在表中显示结果。在这种情况下,您的数据流应由以下四个节点组成:


表 1. 节点示例

图标 1 变量文件节点,设置此节点后可以读取数据源中的数据。
图标 2 导出节点,用于向数据集中添加计算的新字段。
图标 3 选择节点,用于设置选择标准,以从数据流中排除某些记录。
图标 4 表节点,用于在屏幕上显示操作结果。

 

基本概念:数据流

SPSS Modeler 进行的数据挖掘重点关注通过一系列节点运行数据的过程,我们将这一过程称为数据流。也可以说 SPSS Modeler 是以数据流为驱动的产品。这一系列节点代表要对数据执行的操作,而节点之间的链接指示数据的流动方向。如,上面提到的四个节点可以创建如下数据流:


图 2. 数据流示例
图 2. 数据流示例

通常,SPSS Modeler 将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)。使用 SPSS Modeler 处理数据的三个步骤:


  1. 将数据读入 SPSS Modeler。
  2. 通过一系列操纵运行数据。
  3. 将数据发送到目标位置。

在 SPSS Modeler 中,可以通过打开新的数据流来一次处理多个数据流。会话期间,可以在 SPSS Modeler 窗口右上角的流管理器中管理打开的多个数据流。


图 3. 流管理器
图 3. 流管理器

节点选项板

节点选项板位于流工作区下方窗口的底部。


图 4. 节点选项板
图 4. 节点选项板

每个选项板选项卡均包含一组不同的流操作阶段中使用的相关节点,如:


  • :此类节点可将数据导入 SPSS Modeler,如数据库、文本文件、SPSS Statistics 数据文件、Excel、XML 等。
  • 记录选项:此类节点可对数据记录执行操作,如选择、合并和追加等。
  • 字段选项:此类节点可对数据字段执行操作,如过滤、导出新字段和确定给定字段的测量级别等。
  • 图形:此类节点可在建模前后以图表形式显示数据。图形包括散点图、直方图、网络节点和评估图表等。
  • 建模:此类节点可使用 SPSS Modeler 中提供的建模算法,如神经网络、决策树、聚类算法和数据排序等。
  • 数据库建模:节点使用 Microsoft SQL Server、IBM DB2 和 Oracle 数据库中可用的建模算法直接在数据库里进行建模及评估。
  • 输出:节点生成数据、图表和可在 SPSS Modeler 中查看的模型等多种输出结果。
  • 导出:节点生成可在外部应用程序(如 IBM SPSS Data Collection 或 Excel)中查看的多种输出。
  • IBM SPSS Statistics:节点将 IBM SPSS Statistics 数据导入或导出为 SPSS Statistics 数据,以及运行 SPSS Statistics 提供的功能。

随着对 SPSS Modeler 的熟悉,您可以在收藏夹自定义常用的选项板内容。

使用节点和流

要将节点添加到工作区,请在节点选项板中双击图标或将其拖放到工作区。已添加到流工作区的节点在连接之前不会形成数据流,可以将各个图标连接以创建一个表示数据流动的流,节点之间的连接指示数据从一项操作流向下一项操作的方向。

SPSS Modeler 中最常见的鼠标用法如下所示:


  • 单击。使用鼠标左键或右键选择菜单选项,打开上下文相关菜单以及访问其他各种标准控件和选项。单击节点并按住按键可拖动节点。
  • 双击。双击鼠标左键可将节点置于流工作区,编辑工作区现有节点。
  • 中键单击。单击鼠标中键并拖动光标可在流工作区中连接节点。双击鼠标中键可断开某个节点的连接。如果没有三键鼠标,可在单击并拖动鼠标时通过按 Alt 键来模拟此功能。

创建了流以后,可以对流进行保存、添加注解,将其添加到工程。从文件主菜单中,选择流属性还可以为流设置各种选项,如优化、日期和时间设置、参数和脚本。使用流属性对话框中的消息选项卡,可以轻松查看有关运行、优化和模型构建和评估所用时间等流操作有关的消息,流操作的错误消息也将在这里报告。

SPSS Modeler 管理器

可以使用流选项卡

  • 6
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值