SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN

教程传送门:
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析
SPSS Modeler18.0数据挖掘软件教程(四):分类分析-决策树

1、数据介绍

本节教程中将利用SPSS Modeler18.0对电信客户流失数据使用KNN模型进行分类分析,所使用的数据集是SPSS Modeler18.0自带数据集《telo.sav》,本教程所涉及的数据集我也整理了一份放在云盘,提取码: ktyb,需要的朋友可以直接下载。
本次所用数据与教程(一)中相同,数据结构如下:
在这里插入图片描述
该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。

2、操作步骤

利用SPSS Modeler建立KNN分类模型分析客户流失,模型建立如下:
在这里插入图片描述
在构建区建立【源】【类型】【过滤器】【分区】的方法与决策树相同,再将【建模】节点中的【KNN】模型拖入构建区,在目标选项卡中设置预测目标字段。
在这里插入图片描述在【字段】选项卡中可以使用预定义角色或者在下面手动设置,在【设置】现象卡的【模型】选项中,勾选【使用分区数据】、【为每个分割构建模型】、【标准化范围输入】,消除量纲的影响。
在这里插入图片描述
在【相邻元素】选项卡中,设置自动选择K的范围,设定K的值为3-5,让模型自动选择最佳的K值。
在这里插入图片描述
点击运行,得到如下模型结果,其中左边为样本在低维度预测空间中的映射分布情况,右边的K选择错误日志,显示了K值确定的过程。本例中最终K为4时,训练集上效果最好。
在这里插入图片描述
当在左边选择任一样本作为焦点时,将会自动连接到对应的K近邻样本点,在右边选择【邻元素和距离表】,可以看到与改焦点距离最近的K个元素。
在这里插入图片描述选择【象限图】则展示与改焦点最近的K个样本在每个属性上的分布情况,最懂显示六个属性。
在这里插入图片描述【分类表】表示该KNN分类模型的准确率情况。
在这里插入图片描述对于KNN模型结果,可以添加【分析】和【表格】节点查看模型情况。在【分析】节点中点击运行,查看模型在训练集和测试集上的准确性。
在这里插入图片描述

3、小结

本节教程中,主要讲解了利用SPSS Modeler18.0KNN分类建模,详细阐述了从数据过滤到模型参数设置的步骤,并对模型结果进行了详细讲解。

1.1 数据的输入和保存 1.1.1 SPSS的界面 1.1.2 定义变量 1.1.3 输入数据 1.1.4 保存数据 1.2 数据的预分析 1.2.1 数据的简单描述 1.2.2 绘制直方图 1.3 按题目要求进行统计分析 1.4 保存和导出分析结果 1.4.1 保存文件 1.4.2 导出分析结果 欢迎加入SPSS使用者的行列,首先祝贺你选择了权威统计软件中界面最为友好,使用最为方便的SPSS来完成自己的工作。由于该软件极为易学易用(当然还至少要有不太高的英语水平),我们准备在课程安排上做一个新的尝试,即不急于介绍它的界面,而是先从一个数据分析实例入手:当你将这个例题做完,SPSS的基本使用方法也就已经被你掌握了。从下一章开始,我们再详细介绍SPSS各个模块的精确用法。 我们教学时是以SPSS 22版为蓝本讲述的--什么?你还在用7.0版!那好,由于10.0版在数据管理的界面操作上和以前版本有较大区别,本章我们将特别照顾一下老版本,在数据管理界面操作上将按9.0及以前版本的情况讲述,但具体的统计分析功能则按10.0版本讲述。没关系,基本操作是完全一样的。好,说了这么多废话,等急了吧,就让我们开始吧! 例1.1 某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下, 问该地急性克山病患者与健康人的血磷值是否不同(卫统第三版例4.8)? 患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87  11例克山病患者的血磷值  13名健康人的血磷值  该地急性克山病患者与健康人的血磷值是否不同 让我们把要做的事情理理顺:首先要做的肯定是打开计算机(废话),然后进入win98或win2000(还是废话,以下省去废话2万字),在进入SPSS后,具体工作流程如下: 1. 将数据输入SPSS,并存盘以防断电。 2. 进行必要的预分析(分布图、均数标准差的描述等),以确定应采用的检验方法。 3. 按题目要求进行统计分析。 4. 保存和导出分析结果。 下面就按这几步依次讲解。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值