1、功能实现与样本分析
在数据挖掘领域,可以利用相应的算法对数据集进行训练,即对样本的特征进行分析,从而归纳出相同类别的样本之间存在的内在特征联系,进一步对未知类别的样本进行预测,判断出该样本所属的类别。本文实现了利用决策树算法对UCI 机器学习库上的经典wine数据集进行分类的目的。
为达到相应的分类目的,需要先对数据集样本进行分析。
表1 wine数据集样本特征
不用化学成分的含量与酒的所属类别息息相关。表1列举了所选用的wine数据集的特征情况。整个数据集样本包含13个特征,例如Alcohol(酒精度),Malic acid(苹果酸含量)等,这些特征的取值范围见表1所示。
表2 wine数据集部分样本表
属性 1 |
属性 2 |
属性 3 |
属性 4 |
属性 5 |
属性 6 |
属性 7 |
属性 8 |
属性 9 |
属性 10 |
属性 11 |
属性 12 |
属性 13 |
类别 |
14.23 |
1.71 |
2.43 |
15.6 |
127 |
2.8 |
3.06 |
.28 |
2.29 |
5.64 |
1.04 |
3.92 |
1065 |
1 |
13.2 |
1.78 |
2.14 |
11.2 |
100 |
2.65 |
2.76 |
.26 |
1.28 |
4.38 |
1.05 |
3.4 |
1050 |
1 |
13.16 |
2.36 |
2.67 |
18.6 |
101 |
2.8 |
3.24 |
.3 |
2.81 |
5.68 |
1.03 |
3.17 |
1185 |
1 |
14.37 |
1.95 |
2.5 |
16.8 |
113 |
3.85 |
3.49 |
.24 |
2.18 |
7.8 |
.86 |
3.45 |
1480 |
1 |
13.24 |
2.59 |
2.87 |
21 |
118 |
2.8 |
2.69 |
.39 |
1.82 |
4.32 |
1.04 |
2.93 |
735 |
1 |
14.2 |
1.76 |
2.45 |
15.2 |
112 |
3.27 |
3.39 |
.34 |
1.97 |
6.75 |
1.05 |
2.85 |
1450 |
1 |
14.39 |
1.87 |
2.45 |
14.6 |
96 |
2.5 |
2.52 |
.3 |
1.98 |
5.25 |
1.02 |
3.58 |
1290 |
1 |
12.37 |
.94 |
1.36 |
10.6 |
88 |
1.98 |
.57 |
.28 |
.42 |
1.95 |
1.05 |
1.82 |
520 |
2 |
12.33 |
1.1 |
2.28 |
16 |
101 |
2.05 |
1.09 |
.63 |
.41 |
3.27 |
1.25 |
1.67 |
680 |
2 |
12.64 |
1.36 |
2.02 |
16.8 |
100 |
2.02 |
1.41 |
.53 |
.62 |
5.75 |
.98 |
1.59 |
450 |
2 |
13.67 |
1.25 |
1.92 |
18 |
94 |
2.1 |
1.79 |
.32 |
.73 |
3.8 |
1.23 |
2.46 |
630 |
2 |
12.37 |
1.13 |
2.16 |
19 |
87 |
3.5 |
3.1 |
.19 |
1.87 |
4.45 |
1.22 |
2.87 |
420 |
2 |
12.17 |
1.45 |
2.53 |
19 |
104 |
1.89 |
1.75 |
.45 |
1.03 |
2.95 |
1.45 |
2.23 |
355 |
2 |
12.37 |
1.21 |
2.56 |
18.1 |
98 |
2.42 |
2.65 |
.37 |
2.08 |
4.6 |
1.19 |
2.3 |
678 |
2 |
12.86 |
1.35 |
2.32 |
18 |
122 |
1.51 |
1.25 |
.21 |
.94 |
4.1 |
.76 |
1.29 |
630 |
3 |
12.88 |
2.99 |
2.4 |
20 |
104 |
1.3 |
1.22 |
.24 |
.83 |
5.4 |
.74 |
1.42 |
530 |
3 |
12.81 |
2.31 |
2.4 |
24 |
98 |
1.15 |
1.09 |
.27 |
.83 |
5.7 |
.66 |
1.36 |
560 |
3 |
12.7 |
3.55 |
2.36 |
21.5 |
106 |
1.7 |