SPSS Modeler 数据审核学习笔记

本文是关于IBM SPSS Modeler 18.0的数据审核学习笔记,详细介绍了如何进行数据预处理,包括数据源读取、设置字段属性、数据审核节点的应用,以及如何处理离群值、缺失值和空字符串。通过数据审核,可以检查统计量、图表,判断数据正态性和对称性,从而进行有效的数据清洗。
摘要由CSDN通过智能技术生成
  • 学习资料

IBM SPSS Modeler 18.0 Applications 第7章

  • 应用场景

初始数据探究过程前,需要使用数据审核报告显示统计以及每个数据字段的信息

  • 数据源描述

数据源名称telco.sav
在这里插入图片描述

  • 应用模型

数据审核节点

  • 设计步骤

1、选取源节点“Statistics文件”,读取外部数据源;
Variable names选择Read names and labels
Values选择Read data and labels

2、将一个类型节点附加到源节点, 将churn 字段的Measure测量级别设置为flag标志,并将角色设置为Target目标。将所有其他字段的角色设置为 Input,并确认定义字段的Measure测量级别,例如数值为0和1的字段可以设置为标志,性别等仅包含两个值的字段设置为名义字段
在这里插入图片描述

3、将“数据审核”节点附加到流。
在“设置”选项卡上,保留默认设置以便在报告中包含所有字段。由于churn是类型节点中定义的唯一目标字段,系统会自动将其用作交叠字段。
在“质量”选项卡上,保留检测缺失值、离群值和极值的所有默认设置。
最后点击运行
在这里插入图片描述
在这里插入图片描述
4、浏览统计量和图表

通过数据审核的浏览器显示,可以查看每个字段的图表、基本统计量、高级统计量,还可以通过工具栏或“编辑”菜单选择要显示的统计量
基本统计量包括:最小值、最大值、平均值、标准差、偏度、唯一值及有效值。其中,唯一值为分类变量中的分类数量(性别有男和女值则唯一值为2),有效值则为非空的记录数量。
高级统计量包括:合计、范围(极差)、平均值的标准差、偏度系数标准差、峰度、峰度系数标准差

在这里插入图片描述

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值