- 学习资料
IBM SPSS Modeler 18.0 Applications 第7章
- 应用场景
初始数据探究过程前,需要使用数据审核报告显示统计以及每个数据字段的信息
- 数据源描述
数据源名称telco.sav
- 应用模型
数据审核节点
- 设计步骤
1、选取源节点“Statistics文件”,读取外部数据源;
Variable names选择Read names and labels
Values选择Read data and labels
2、将一个类型节点附加到源节点, 将churn 字段的Measure测量级别设置为flag标志,并将角色设置为Target目标。将所有其他字段的角色设置为 Input,并确认定义字段的Measure测量级别,例如数值为0和1的字段可以设置为标志,性别等仅包含两个值的字段设置为名义字段
3、将“数据审核”节点附加到流。
在“设置”选项卡上,保留默认设置以便在报告中包含所有字段。由于churn是类型节点中定义的唯一目标字段,系统会自动将其用作交叠字段。
在“质量”选项卡上,保留检测缺失值、离群值和极值的所有默认设置。
最后点击运行
4、浏览统计量和图表
通过数据审核的浏览器显示,可以查看每个字段的图表、基本统计量、高级统计量,还可以通过工具栏或“编辑”菜单选择要显示的统计量
基本统计量包括:最小值、最大值、平均值、标准差、偏度、唯一值及有效值。其中,唯一值为分类变量中的分类数量(性别有男和女值则唯一值为2),有效值则为非空的记录数量。
高级统计量包括:合计、范围(极差)、平均值的标准差、偏度系数标准差、峰度、峰度系数标准差