简单的聚类分析及应用

1.分类

通常对样品进行分类方法称为Q型聚类法,统计量称为距离。对变量进行分类的方法称为R型聚类法,统计量称为相似系数。聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高。
聚类算法的分类
本文将主要对K-means 算法进行讲解,主要依据全国大学生数学建模为数据依据。

2.分析题目

2.1 关于酿酒葡萄的分类,首先经过查阅资料得知,酿酒葡萄的等级主要受葡萄的外观、风味、加工、营养,还有其产生葡萄酒的质量。查阅资料,对应于EXCEL所给数据项为:
酿酒葡萄理化指标体系

2.2 首先要说一下标量的规格化问题。所谓规格化就是将各个属性值按比例映射到相同的取值区间,这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:
规格化公式

2.3 对excel中基于外观品质项的各个元素做规格化处理,其中,有些元素设计多次测量值,取其平均数。
首先对所需数据第一次标准化,结果如下:

花色苷mg/100g鲜重果穗质量/g百粒质量/g果皮质量(g)果皮颜色a果皮颜色b果皮颜色l
408.028182.930370.90.110.780.2624.07
224.36781.617294.90.160.65-1.2526.07
157.93983.130316.20.171.09-0.6225.50
79.685137.970524.10.171.84-0.3725.98
120.606515.463762.70.270.88-0.3326.33
46.186202.237515.90.191.81-0.1625.16
60.76763.610506.50.142.05-0.3825.61
241.397213.087543.20.260.80-0.5126.85
240.843186.617414.20.131.44-0.3823.81
44.203255.440602.40.202.17-1.1227.10
7.787177.830356.40.1012.153.8728.03
32.343191.947563.20.242.040.0126.57
65.324159.970443.90.161.04-1.5727.53
140.257209.107408.80.261.19-0.5725.41
52.792159.310523.40.211.98-0.0125.53
60.660119.1733280.141.33-0.3426.11
59.424446.637792.30.331.18-0.2525.40
40.228196.007625.20.162.870.2125.52
115.704173.093506.50.160.80-1.5127.19
23.523307.1431002.90.231.96-0.4327.09
89.282147.660318.30.111.210.0025.18
74.027106.613347.50.151.52-0.0725.94
172.626278.750657.20.231.38-0.4226.65
144.881517.454712.10.250.90-0.2925.97
49.643288.690753.90.221.52-0.9227.10
58.469793.467736.50.231.09-0.8328.00
34.190282.087446.20.202.33-1.2328.79

接下来01规格化之后得到:

花色苷mg/100g鲜重果穗质量/g百粒质量/g果皮质量(g)果皮颜色a果皮颜色b果皮颜色l
1.000.160.110.030.010.340.05
0.540.020.000.270.000.060.45
0.380.030.030.300.040.170.34
0.180.100.320.310.100.220.44
0.280.620.660.730.020.230.51
0.100.190.310.400.100.260.27
0.130.000.300.170.120.220.36
0.580.200.350.690.010.190.61
0.580.170.170.120.070.220.00
0.090.260.430.430.130.080.66
0.000.160.090.001.001.000.85
0.060.180.380.610.120.290.55
0.140.130.210.250.030.000.75
0.330.200.160.670.050.180.32
0.110.130.320.480.120.290.34
0.130.080.050.140.060.230.46
0.130.520.700.990.050.240.32
0.080.180.470.250.190.330.34
0.270.150.300.260.010.010.68
0.040.331.000.560.110.210.66
0.200.120.030.030.050.290.28
0.170.060.070.200.080.280.43
0.410.290.510.570.060.210.57
0.340.620.590.630.020.240.43
0.100.310.650.510.080.120.66
0.131.000.620.560.040.140.84
0.070.300.210.420.150.061.00

接下来运用SPSS均值聚类进行分析(过程省略) :
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
我将其分为了五,由以上数据可得,迭代进行了三次,且sig值均小于0.05分类具有显著性。我们将所有的红酿酒葡萄根据外观都进行了分类(1-5)。

优秀论文方法:对最终聚类中心进行加权,例如:对果皮颜色l,分别赋予1,3,9,7,5,依次对七个元素进行加权,之后列相加平均,得到对五类的基于外观的分别加权分数,将分数分别给27种葡萄。相似的,葡萄将出现五种加权分数(27行,5列)再次进行聚类,优秀论文用了黄金分割,即可得到最终结果。

主要借鉴:http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
全国大学生数学建模优秀论文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值