3.1数据基本分析(实验)
任务介绍:
本小节实训我们要练习SPSS Modeler当中的数据基本分析部分。
Modeler数据基本分析包括5大块内容:
1.数据质量分析
2.描述性统计分析
3.探索性分析
4.二分类变量相关性分析
5.变量的重要性分析
学习相关知识
1. 数据质量探索
- 数据挖掘的首要任务是对数据质量进行考察。对数据质量的考察可通过“输出”选项卡中的数据审核节点实现。数据审核节点还可以计算变量的基本统计量并绘制相应的柱形图和直方图等。
- 审核数据--【审核选项卡】【质量选项卡】
- 数据离群值和极值的修正
- 数据缺失值的插补
- 数据审核节点的其他功能
2. 基本描述分析
- 对数值型变量,应计算基本描述统计量,以准确把握变量的集中趋势和离散程度。
可以用“数据审核”节点,也可以用“statistics”节点
3. 探索性分析
-
统计建模常常要求变量服从正态分布,如果变量不服从正态分布,应对变量进行适当的转换处理。SPSS Modeler提供了直观的图形方式用于变量的转换,大大缩短了变量分布探索的时间。
-
对各种费用变量应做怎样的转换才能使其接近正态分布?
-
选择【输出】选项卡中的【变换节点】,并将其连接到数据流的恰当位置上,在该节点处单击鼠标右键,选择快捷菜单中的“编辑”选项,进行参数设置,如下图所示: