SPSS Modeler 数据审核学习笔记

最新推荐文章于 2022-09-27 13:01:03 发布

cww468

最新推荐文章于 2022-09-27 13:01:03 发布

阅读量5.8k

点赞数 1

分类专栏： SPSS 文章标签： spss 机器学习

本文链接：https://blog.csdn.net/cww468/article/details/123502651

版权

本文是关于IBM SPSS Modeler 18.0的数据审核学习笔记，详细介绍了如何进行数据预处理，包括数据源读取、设置字段属性、数据审核节点的应用，以及如何处理离群值、缺失值和空字符串。通过数据审核，可以检查统计量、图表，判断数据正态性和对称性，从而进行有效的数据清洗。

摘要由CSDN通过智能技术生成

学习资料

IBM SPSS Modeler 18.0 Applications 第7章

应用场景

初始数据探究过程前，需要使用数据审核报告显示统计以及每个数据字段的信息

数据源描述

数据源名称telco.sav
在这里插入图片描述

应用模型

数据审核节点

设计步骤

1、选取源节点“Statistics文件”，读取外部数据源；
Variable names选择Read names and labels
Values选择Read data and labels

2、将一个类型节点附加到源节点, 将churn 字段的Measure测量级别设置为flag标志，并将角色设置为Target目标。将所有其他字段的角色设置为 Input，并确认定义字段的Measure测量级别，例如数值为0和1的字段可以设置为标志，性别等仅包含两个值的字段设置为名义字段
在这里插入图片描述

3、将“数据审核”节点附加到流。
在“设置”选项卡上，保留默认设置以便在报告中包含所有字段。由于churn是类型节点中定义的唯一目标字段，系统会自动将其用作交叠字段。
在“质量”选项卡上，保留检测缺失值、离群值和极值的所有默认设置。
最后点击运行
在这里插入图片描述

4、浏览统计量和图表

通过数据审核的浏览器显示，可以查看每个字段的图表、基本统计量、高级统计量，还可以通过工具栏或“编辑”菜单选择要显示的统计量
基本统计量包括：最小值、最大值、平均值、标准差、偏度、唯一值及有效值。其中，唯一值为分类变量中的分类数量（性别有男和女值则唯一值为2），有效值则为非空的记录数量。
高级统计量包括：合计、范围（极差）、平均值的标准差、偏度系数标准差、峰度、峰度系数标准差

在这里插入图片描述