1.分类
通常对样品进行分类方法称为Q型聚类法,统计量称为距离。对变量进行分类的方法称为R型聚类法,统计量称为相似系数。聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高。
本文将主要对K-means 算法进行讲解,主要依据全国大学生数学建模为数据依据。
2.分析题目
2.1 关于酿酒葡萄的分类,首先经过查阅资料得知,酿酒葡萄的等级主要受葡萄的外观、风味、加工、营养,还有其产生葡萄酒的质量。查阅资料,对应于EXCEL所给数据项为:
2.2 首先要说一下标量的规格化问题。所谓规格化就是将各个属性值按比例映射到相同的取值区间,这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:
2.3 对excel中基于外观品质项的各个元素做规格化处理,其中,有些元素设计多次测量值,取其平均数。
首先对所需数据第一次标准化,结果如下:
花色苷mg/100g鲜重 | 果穗质量/g | 百粒质量/g | 果皮质量(g) | 果皮颜色a | 果皮颜色b | 果皮颜色l |
408.028 | 182.930 | 370.9 | 0.11 | 0.78 | 0.26 | 24.07 |
224.367 | 81.617 | 294.9 | 0.16 | 0.65 | -1.25 | 26.07 |
157.939 | 83.130 | 316.2 | 0.17 | 1.09 | -0.62 | 25.50 |
79.685 | 137.970 | 524.1 | 0.17 | 1.84 | -0.37 | 25.98 |
120.606 | 515.463 | 762.7 | 0.27 | 0.88 | -0.33 | 26.33 |
46.186 | 202.237 | 515.9 | 0.19 | 1.81 | -0.16 | 25.16 |
60.767 | 63.610 | 506.5 | 0.14 | 2.05 | -0.38 | 25.61 |
241.397 | 213.087 | 543.2 | 0.26 | 0.80 | -0.51 | 26.85 |
240.843 | 186.617 | 414.2 | 0.13 | 1.44 | -0.38 | 23.81 |
44.203 | 255.440 | 602.4 | 0.20 | 2.17 | -1.12 | 27.10 |
7.787 | 177.830 | 356.4 | 0.10 | 12.15 | 3.87 | 28.03 |
32.343 | 191.947 | 563.2 | 0.24 | 2.04 | 0.01 | 26.57 |
65.324 | 159.970 | 443.9 | 0.16 | 1.04 | -1.57 | 27.53 |
140.257 | 209.107 | 408.8 | 0.26 | 1.19 | -0.57 | 25.41 |
52.792 | 159.310 | 523.4 | 0.21 | 1.98 | -0.01 | 25.53 |
60.660 | 119.173 | 328 | 0.14 | 1.33 | -0.34 | 26.11 |
59.424 | 446.637 | 792.3 | 0.33 | 1.18 | -0.25 | 25.40 |
40.228 | 196.007 | 625.2 | 0.16 | 2.87 | 0.21 | 25.52 |
115.704 | 173.093 | 506.5 | 0.16 | 0.80 | -1.51 | 27.19 |
23.523 | 307.143 | 1002.9 | 0.23 | 1.96 | -0.43 | 27.09 |
89.282 | 147.660 | 318.3 | 0.11 | 1.21 | 0.00 | 25.18 |
74.027 | 106.613 | 347.5 | 0.15 | 1.52 | -0.07 | 25.94 |
172.626 | 278.750 | 657.2 | 0.23 | 1.38 | -0.42 | 26.65 |
144.881 | 517.454 | 712.1 | 0.25 | 0.90 | -0.29 | 25.97 |
49.643 | 288.690 | 753.9 | 0.22 | 1.52 | -0.92 | 27.10 |
58.469 | 793.467 | 736.5 | 0.23 | 1.09 | -0.83 | 28.00 |
34.190 | 282.087 | 446.2 | 0.20 | 2.33 | -1.23 | 28.79 |
接下来01规格化之后得到:
花色苷mg/100g鲜重 | 果穗质量/g | 百粒质量/g | 果皮质量(g) | 果皮颜色a | 果皮颜色b | 果皮颜色l |
1.00 | 0.16 | 0.11 | 0.03 | 0.01 | 0.34 | 0.05 |
0.54 | 0.02 | 0.00 | 0.27 | 0.00 | 0.06 | 0.45 |
0.38 | 0.03 | 0.03 | 0.30 | 0.04 | 0.17 | 0.34 |
0.18 | 0.10 | 0.32 | 0.31 | 0.10 | 0.22 | 0.44 |
0.28 | 0.62 | 0.66 | 0.73 | 0.02 | 0.23 | 0.51 |
0.10 | 0.19 | 0.31 | 0.40 | 0.10 | 0.26 | 0.27 |
0.13 | 0.00 | 0.30 | 0.17 | 0.12 | 0.22 | 0.36 |
0.58 | 0.20 | 0.35 | 0.69 | 0.01 | 0.19 | 0.61 |
0.58 | 0.17 | 0.17 | 0.12 | 0.07 | 0.22 | 0.00 |
0.09 | 0.26 | 0.43 | 0.43 | 0.13 | 0.08 | 0.66 |
0.00 | 0.16 | 0.09 | 0.00 | 1.00 | 1.00 | 0.85 |
0.06 | 0.18 | 0.38 | 0.61 | 0.12 | 0.29 | 0.55 |
0.14 | 0.13 | 0.21 | 0.25 | 0.03 | 0.00 | 0.75 |
0.33 | 0.20 | 0.16 | 0.67 | 0.05 | 0.18 | 0.32 |
0.11 | 0.13 | 0.32 | 0.48 | 0.12 | 0.29 | 0.34 |
0.13 | 0.08 | 0.05 | 0.14 | 0.06 | 0.23 | 0.46 |
0.13 | 0.52 | 0.70 | 0.99 | 0.05 | 0.24 | 0.32 |
0.08 | 0.18 | 0.47 | 0.25 | 0.19 | 0.33 | 0.34 |
0.27 | 0.15 | 0.30 | 0.26 | 0.01 | 0.01 | 0.68 |
0.04 | 0.33 | 1.00 | 0.56 | 0.11 | 0.21 | 0.66 |
0.20 | 0.12 | 0.03 | 0.03 | 0.05 | 0.29 | 0.28 |
0.17 | 0.06 | 0.07 | 0.20 | 0.08 | 0.28 | 0.43 |
0.41 | 0.29 | 0.51 | 0.57 | 0.06 | 0.21 | 0.57 |
0.34 | 0.62 | 0.59 | 0.63 | 0.02 | 0.24 | 0.43 |
0.10 | 0.31 | 0.65 | 0.51 | 0.08 | 0.12 | 0.66 |
0.13 | 1.00 | 0.62 | 0.56 | 0.04 | 0.14 | 0.84 |
0.07 | 0.30 | 0.21 | 0.42 | 0.15 | 0.06 | 1.00 |
接下来运用SPSS均值聚类进行分析(过程省略) :
我将其分为了五,由以上数据可得,迭代进行了三次,且sig值均小于0.05分类具有显著性。我们将所有的红酿酒葡萄根据外观都进行了分类(1-5)。
优秀论文方法:对最终聚类中心进行加权,例如:对果皮颜色l,分别赋予1,3,9,7,5,依次对七个元素进行加权,之后列相加平均,得到对五类的基于外观的分别加权分数,将分数分别给27种葡萄。相似的,葡萄将出现五种加权分数(27行,5列)再次进行聚类,优秀论文用了黄金分割,即可得到最终结果。
主要借鉴:http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
全国大学生数学建模优秀论文