IBM SPSS Modeler 【6】 建立决策树

7 篇文章 0 订阅
6 篇文章 1 订阅

SPSS 数据挖掘方法概述——关联、决策树

本实验是基于关联和决策树在数据挖掘中的应用。通过该实验,能够客观实际地理解关联分析和决策树的相关知识。

首先进行的是关联分析,之后利用关联分析的数据建立一个决策树。

2、建立决策树

在该部分的试验中,需要将注意力转移到顾客身上,即分析哪些顾客是“健康食品购买者”——同时购买 fruitveg 和 fish

(1)          如何标志健康食品购买者。点击“字段选项”选项卡下的“导出”增加一个属性

Healthy)来标识健康食品购买者。编辑“导出”节点,将字段类型设为“标志”,并编辑

fruitveg = 'T' and fish='T'”,该公式表示消费者同时购买 fruitveg 和 fish 这两种商品,如图

47

  

 图 47 “导出”节点编辑窗口

 

(2)          查看增加“Healthy”之后的数据表。利用“表”来查看数据表,如图 48,可以看到表中增加了一个“Healthy”字段,描述是否为健康食品购买者。

 图 48 增加“Healthy”之后的数据表

 

(3)          接入一个“类型”节点。在这里,需要重新编辑字段的角色,如图 49 所示。其中与用户相关的信息字段(除 cardid 外)角色都设定为“输入”,而“Healthy”变为“输出”,其他的选择“无”。

 图 49 “类型”节点编辑窗口

 

(4)          接入 C5.0 决策树模型。双击“建模”选项卡下的“C5.0”模型,既可以完成添加。如图 50


图 50 工作区中的“C5.0”模型

 

(5)          运行决策树模型。分别运行“决策树”和“规则集”两种形式,查看两者得到的结果分别如图 51 和图 52 所示。两者都分别有不同的表示方式。图中显示哪些类型的顾客是健康食品购买者。


 图 51 用决策树形式查看决策树模型运行结果

 


 图 52 用规则集形式查看决策树模型运行结果

 

(6)          其他属性的功能,如图 53。“组符号”是指当有多个字段在同一个分支时,将这几个字段放在一组;“使用 boosting”是指使用部分数据作为再次生成决策树,最后综合这些决策树来提高决策树的精度;“交互验证”是指一部分数据用来生成决策树,一部分作为测试;“简单”是指生成决策树的准确度,但是精确度高的决策树的移植性不高;“专家”下的“修剪严重性”是指修剪的程度。



图 53 其他属性功能

 

(7)          分析 “修剪严重性”条件为 时的结果。在图 54 中可以看出,决策树有 层(“修剪严重性”为 75%的有 层)。由此可以得出结论,“修剪”对精度具有重要的影响。


 图 54 “修剪严重性”条件为 时的结果(8)将决策树模型加入数据流。首先选择“字段选项”下的“类型”节点,然后分别双击右上侧的“tree”和“no-cut”(已重命名),在这之后,分别添加“分析”节点作为输出,得到如图 55 的数据流。


 图 55 工作区中的“分析”节点

 

(9)          分析“修剪严重性”为 75%的正确性。运行“tree”下“分析”节点,在图 56 中可以看出,决策树分支的正确率为 93.8%


 图 56 分析“修剪严重性”为 75%的正确性

 

(10)      分析“修剪严重性”为 的正确性。运行“no-cut”下“分析”节点后,得到图 57,图中显示决策树分支的正确率为 95.1%。由此表明这两者的正确率差别不是十分大,仅为 1.3%。但是,一般情况下,会选择简单的模型作为选择对象,即“修剪严重性”为 75% 的模型。


 图 57 分析“修剪严重性”为 的正确性

 

(11)      决策树的另外一个选项——成本,如图 58 显示。此处的成本主要指决策树将 判为 F,而将 判为 的过程需要成本,同时这个成本一般并不相同,SPSS Modeler 14.2 的这两个默认值都是 1。在这里,将 判为 的成本改为 0.3,将 判为 的成本改为 2.0,“修剪严重性”设定为 75%,运行该决策树模型,得到图 59,共有 层。接下来,将这与原来生成的“tree”模型(判为 的成本为 1.0判为 的成本改为 1.0,“修剪严重性”为 75%)进行比较。


 如 58 修改“决策树”模型的成本选项

 

 图 59 “决策树”模型运行结果

 

(12)      添加“输出”选项卡下的“矩阵”节点。将这个模型添加到数据流中,并在此基础上分别添加“矩阵”节点,如图 60 所示。


 图 60 工作区的“矩阵”节点(13)分别运行“矩阵”节点,并分析数据。在运行这两个节点之前,需要将这两个“矩阵”节点的“行”设为“Healthy”,“列”设为“$C-Healthy”。运行后分别得到图 61(左: “tree”,右:“2-0.3cost”)的表格。可以看出,决策树总是朝着成本最低的趋势生成决策树。


图 61 “矩阵”节点运行后结果

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
SPSS Modeler是一款广泛用于数据挖掘和预测分析的软件工具。它可以帮助用户通过建立和验证模型来解决实际问题。 在一个SPSS Modeler数据挖掘模拟试题中,我们可能会收到一个数据集,并被要求分析这些数据来预测一个特定的结果。首先,我们会导入数据集到SPSS Modeler中,并对数据进行清洗和预处理。这包括去除缺失值、处理异常值、标准化数据等。 接下来,我们会选择适合的数据挖掘技术来分析数据。SPSS Modeler提供了多种常用的技术,如聚类分析、分类分析、关联规则挖掘等。根据试题的要求,我们可以选择合适的技术来解决问题。 然后,我们会根据选择的数据挖掘技术构建一个模型SPSS Modeler通过简单拖拽节点的方式,可以轻松地建立模型。我们可以选择特征变量和目标变量,并设置合适的参数和算法。 在模型建立完成后,我们需要对模型进行验证和评估。我们可以使用交叉验证、ROC曲线等方法,来评估模型的准确性和性能。如果评估结果不理想,我们可以调整模型的参数或选择其他的数据挖掘技术。 最后,我们可以使用已经建立好的模型来预测新的数据。SPSS Modeler提供了预测节点,可以方便地进行预测分析。 综上所述,SPSS Modeler是一款功能强大的数据挖掘工具,可以帮助我们进行数据分析和预测建模。通过使用SPSS Modeler,我们可以清洗数据、选择合适的数据挖掘技术、建立和验证模型,并进行预测分析。这使得SPSS Modeler成为了解决实际问题和做出准确预测的有力工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值