我们采用IBM SPSS23.0作为数据挖掘的操作软件。作为比较成熟的数据分析软件,SPSS23.0提供了比较完整的数据挖掘功能。为了便于不熟悉SPSS软件操作的同仁尽快掌握相关数据挖掘技能,我们在介绍数据挖掘技术的同时,对具体操作步骤进行说明。
1.基本描述统计分析
我们准备采用数据表与饼图相结合的方式,呈现数据的基本概况,使人们对留学生汉语辞书使用与需求的基本现状有一个总体和直观的了解。
数据表和饼图的制作步骤如下:
(1)启动SPSS,单击“文件”,选择“打开数据”,找到“对外汉语辞书应用状况调查与分析”,打开该文件。
(2)在菜单栏中找“分析—描述统计—频数”,在左边的列表中选中要分析的题目,比如“汉语词典对学习汉语是否重要”,选中后点击向右的箭头,将该选项加入到右边的“变量”列表中,选中“显示频率表”,如图1-1和图1-2所示:
图1-1 选中要分析的选项
图1-2 将要分析的选项送入右边的“变量”列表
(3)点击“图表--饼图”,“图表值”选“百分比”,如图1-3所示:
图1-3 点击“图表--饼图”,“图表值”选“百分比”
(4)点击“继续”,然后点击“格式”,在“排序方式”中选“按计数的降序排序”,点击继续。如图1-4所示:
图1-4 在“排序方式”中选“按计数的降序排序”
(5)点击“确定”,便生成饼图。
(6)饼图生成后,双击饼图,出现图表编辑器,双击图例所在区域,在弹出的“属性”选项卡上点击“变量”,选择“样式:模式”,再点击“应用”。如图1-5所示:
图1-5 选择“样式:模式”,再点击“应用”
(7)在饼图视图中,点击“元素”选项卡,选择“显示数据标签”。如图1-6所示:
图1-6 点击“元素”选项卡,选择“显示数据标签”
(8)上述步骤完成后,便生成了如表1-9所示的数据表和图1-7所示的饼图。
表1-9 汉语词典对学习汉语是否重要统计表
图1-7 汉语词典对学习汉语是否重要饼图
2.卡方检验
卡方检验是对分类资料进行统计推断的常用的一种假设检验方法,它可以对基于人口学变量的频数差异进行检验,确定这些差异是否具有统计学上的显著意义。
卡方检验的步骤