本节我们主要介绍如何运用spss统计软件进行决策树分析,在spss statistics 中,只能选择ID3,CART及chaid 决策树,而在spss另一款专门用于机器学习建模的软件 spss modeler 中,我们可以建立C5.0决策树(C5.0算法的分类规则同C4.5,只是在执行效率和内存使用上有所改进,适用于大数据集)。
我们引用名为 DRUG1n 的数据文件,这是关于身患同一疾病的一组患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应。本案例是通过数据挖掘找出适用于今后患有此疾病的患者的药物。数据样本记录总共200条,拟按照训练集与测试集比例7:3划分,则约140个样本用于建模,70个样本用于测试模型的有消息。(为了防止过度拟合,在有监督机器学习中通常会对样本进行拆分,一般为7:3或4:3:3,在此我们使用7:3模式,实际数据分割时按随机种子的不同会有细微调整)
本次教程使用软件版本为 IBM SPSS Modeler18.0,鉴于平时使用spss modeler的同学相对较少,本篇将是多图小白教程,具体操作步骤如下:
一、数据导入
新建空白流,选择下方 “收藏夹”或“源”选项卡里面的“变量文件”节点,鼠标单击按住拖到空白处,然后,双击新添加的节点以打开其对话框。
图一 新建节点
单击紧挨“文件”框右边以省略号“...”标记的按钮,浏览到您系统中的 IBM® SPSS® Modeler 安装目录。打开 Demos 目录,然后选择名为 DRUG1n 的文件。
确保选中了从文件读取字段名称,注意已加载此对话框中的字段和值。
图二 导入文件
单击数据选项卡,覆盖和更改某个字段的存储。注意,存储