文章目录
一、Spass Modeler 18.0界面介绍
1.1 "源"选项卡
“源”选项卡包含SPSS Modeler可以直接读取得所有数据源格式,主要有数据库、变量文件、固定文件、Excel文件、SAS文件、Statistics文件等。
1.2 “记录选项”选项卡
“记录选项”选项卡可用于对数据行进行转换,包含选择、汇总、排序、合并、追加、区分等。其中“选择”节点是选择出符合我们条件的数据;“汇总“节点是将数据按照特定条件进行汇总统计;“排序”节点是将数据按照一定得规则进行排序;”合并“节点是将两个及以上的文件按照关键字等进行整合;”追加“节点是将两个及以上的文件进行数据的累加;”区分“节点是按照条件将重复数据删除。在记录上进行操作,一条记录是一种”情形“或一”行“数据。
1.3 “字段选项”选项卡
“字段选项”选项卡可用于对列进行转换,包含类型,过滤,导出,填充、转置、字段重排等。在字段上进行操作,一个字段是一个变量。
1.4 “图形”选项卡
“图形”选项卡可用于数据的可视化分析,包括SPSS Modeler可以生成的主要图形,如分布图、直方图、多重散点图、网络图、时间散点图、评估图等,在建模之前和之后用来可视化数据。
1.5 “建模”选项卡
SPSS Modeler中包含了丰富的数据挖掘模型,提供了一系列的数据挖掘技术用来进行预测、聚类、关联、分类等,可满足数据挖掘的应用需求。
1.6 “输出”选项卡
SPSS Modeler 的输出不仅仅是ETL过程,还包括了对数据的统计分析报告输出,如表、矩阵、分析、数据审核、变换、统计量等。
1.7 “导出”选项卡
SPSS Modeler导出的格式与“源”选项卡类似,包含数据库、Excel、SAS导出、Statistics导出等,用来对处理后的结果输出相应格式。
1.8 statistics选项卡
SPSS Statistics在数据分析中经常被使用,SPSS Modeler为了提高客户日常工作的效率,设置该节点便于模型结果的再利用,从而实现与SPSS Statistics的兼容
1.9 Text Analytics(文本挖掘)选项卡
如果SPSS Modeler没有 安装文本挖掘模块,则工具栏上没有该工具,该节点是为了实现文本挖掘而添加的。
二、连接各类数据源
红色框中是经常使用的。
2.1 加载数据源后的设置
三、基础操作介绍
3.1 生成数据流
在数据挖掘过程当中,首先需要生成数据流,数据流是由一系列的节点组成,当数据通过每个节点时,将会对他进行事先设置好的操作。
建立数据流通常遵循以下四步:
- 向数据流程区添加新的节点;
- 将这些节点连接到数据流中;
- 设定数据节点或数据流的功能;
- 如何运行数据流
3.2 添加和删除节点
当向数据流程区添加新的节点时,有四种方法:
- 双击面板中待添加的节点;
- 左键按住待添加节点,将其拖到数据流程区内;
- 选中面板中待添加的节点,将鼠标放入数据流程区,当鼠标变为十字形时单击流程区;
- 右键面板中待添加的节点,从弹出的快捷菜单中选择“添加到流”命令。
通过上面四种方法可将选中的节点添加到数据流程区内,当我们不再需要数据流程区内的某个节点时,可以通过以下两种方法来删除: - 左键选中待删除的节点,按Del键
- 右键单击待删除的节点,在弹出的快捷菜单中选择“删除”命令。
3.3 连接数据流
方法一:选中数据流中要连接新节点的节点(起始节点),在工具面板区双击要连接到数据流的节点(目标节点),这样便将数据流中的节点与新节点相连接了,如图所示。方法二:在工作区内选择两个待连接的节点,选中连接的起始节点按住鼠标滑轮将其拖曳到目标节点放开,连接便自动生成(如果鼠标没有滑轮可选用AIt键和左键代替),如图所示。
方法二:右键单击待连接的起始节点,从弹出的快捷菜单中选择“连接”( Connect),选中“连接“( Connect)后鼠标和起始节点都出现了连接标记,用鼠标单击数据流程区内要连接的目标节点,连接便生成,如图所示。第1种连接方法是将软件界面下方选项卡中的节点与数据流相连接,后两种方法是将已在数据流程区中的节点加入到数据流中。此外数据源节点不能有前驱节点,即在连接时它只能作为起始节点而不能作为目标节点。
3.4 修改连接节点
修改连接节点主要包括:绕过数据流中的节点、将节点加入已存在的连接、删除已经存在的连接等3种基本形式的修改
- 绕过数据流中的节点
当我们暂时不需要数据流中的某个节点时我们可以绕过该节点,在绕过它时,如果该节点既有输入节点又有输出节点,那么它的输入节点和输出节点便直接相连;如果该节点没有输出节点,那么绕过该节点时与这个节点相连的所有连接便被取消,如图所示:
方法:按住At键,通过用鼠标左键单击该节点来完成
2. 将节点加入已存在的连接
当我们需要在两个已连接的节点中再加入一个节点时,可以采用这种方法将原来的连接变成两个新的连接,如图所示方法:用鼠标滑轮单击欲插入新节点的两个节点间的按住它并把它拖到新节点时放手,新的连接便可生成(在鼠标没有滑轮时亦可用A键代替)。
3. 删除已经存在的连接
当某个连接不再需要时,可以通过以下两种方法将它删除:
选择待删除的连接,单击右键,从弹岀的快捷菜单中选择删除连接。
选择待删除连接的节点,按F3键,删除所有连接到该节点上的连接。
3.5运行数据流
数据挖掘。构建好数据流结构后,只有通过运行数据流,数据才能从读入开始流冋各个数据节点。
运行数据流的方法有以下3种
- 选择菜单栏中的运行按钮,数据流区域内的所有数据流将被执行,具有多个输出时,由于这种方法不便于使用者观察挖掘结果,因此使用不是很多;
- 先选择要输岀的数据流,再单击菜单栏中的按钮,被选择的数据流将被执行,由于是一对一的展示模式,便于查看结果,因此该方法在日常数据挖掘中较常用;
- 选择要执行的数据流中的输岀节点,单击鼠标右键,在弹岀的快捷菜单中选择“运行″,这样就可执行被选中的数据流,在日常的数据挖掘工作中较少使用。
四、图形制作
直方图只能用于观察连续性变量,分布图只能用于观察分类型变量
直方图和分布图是针对单个变量的图形,散点图针对两个变量
网络图针对多个分类字段。