线性回归数据(全国各地区能源消耗量与产量)来源,可点击协会博客数据挖掘栏:国泰安数据服务中心的经济研究数据库。
1.1 数据预处理
数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。
1.1.1 数据导入与定义
单击“打开数据文档
”,将xls格式的全国各地区能源消耗量与产量的数据导入SPSS中,如图1-1所示。
图1-1
导入数据
导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型。单击菜单栏的“
”-->“ ”将所选的变量改为数值型。如图1-2所示:
图1-2 定义变量数据类型
1.1.2 数据清理
数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击“
”-->“ ”,将检查所输入的数据的缺失值个数以及百分比等。如图1-3所示:
图1-3缺失值分析
能源数据缺失值分析结果如表1-1所示:
单变量统计
N
均值
标准差
缺失
极值数目a
计数
百分比
低
高
能源消费总量
30
9638.50
6175.924
0
.0
0
1
煤炭消费量
30
9728.99
7472.259
0
.0
0
2
焦炭消费量
30
874.61
1053.008
0
.0
0
2
原油消费量
28
1177.51
1282.744
2
6.7
0
1
汽油消费量
30
230.05
170.270
0
.0
0
1
煤油消费量
28
45.40
66.189
2
6.7
0
4
柴油消费量
30
392.34
300.979
0
.0
0
2
燃料油消费量
30
141.00
313.467
0
.0
0
3
天然气消费量
30
19.56
22.044
0
.0
0
2
电力消费量
30
949.64
711.664
0
.0
0
3
原煤产量
26
<