这是用来记录我们数模2012A题整个做题过程的笔记,方便以后回头查看。
第一问
- 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信
模型建立
1.有无显著性差异?
根据附件1可知,已知数据如下:
红葡萄(27) | 白葡萄(28) | |
---|---|---|
第一组 | xxx | xxx |
第二组 | xxx | xxx |
需要对红葡萄和白葡萄分开分析,数据是成对的两组独立数据;
建立显著性分析模型:
- 显著性分析思维导图
2.哪一组更可信?
酒品的质量可看作是不变的,不同评酒员对它的评分即可看到对他质量的量化,而每一组评酒员平均评分就可以用来替代酒品的质量;
原始想法:酒品质量不变,那么各组评酒员之间对同一酒品的评价差别应足够小。
如果评酒员都很专业,可信度高,那么他们对同一酒品的评价应相差不大;原始的想法只考虑了这一点,但并没有考虑到,对于不同的酒品存在差异;那么评酒员肯定能够区分开来它们,所以对于不同酒品的评价差异应足够大;即如下有了改进想法;
改进想法:各组评酒员之间对同一酒品的评价差别应足够小;但评价员的对酒品的评价应具有区分度,即酒品之间的评价差别应足够大。
建立可信评价模型:
对
于
同
一
酒
品
不
同
评
酒
员
评
分
的
方
差
:
D
1
D
1
‾
:
所
有
酒
品
方
差
的
均
值
对
于
不
同
酒
品
评
酒
员
平
均
评
分
的
方
差
:
D
2
D
1
小
好
,
D
2
大
好
S
=
D
2
D
1
‾
(
S
越
大
即
表
明
越
可
信
)
对于同一酒品不同评酒员评分的方差:D_{1}\\ \overline{D_{1}}:所有酒品方差的均值\\ 对于不同酒品评酒员平均评分的方差:D_{2}\\ D_{1}小好,D_{2}大好\\ S=\frac{D_{2}}{\overline{D_{1}}}(S越大即表明越可信)
对于同一酒品不同评酒员评分的方差:D1D1:所有酒品方差的均值对于不同酒品评酒员平均评分的方差:D2D1小好,D2大好S=D1D2(S越大即表明越可信)
模型求解
首先拿到附件一第一件是就是数据预处理,即异常数据的处理;
明显找到附件一种有三个异常数据,具体为以下几种类型:
- 不在数据的有效范围
- 存在空值
都利用同组评酒员的平均评分来进行数据修正;
1.利用SPSS进行分析:
先正态性检验通过,再利用两独立样本T检验得出结果;
最终结果为红的无显著性差异,白的存在显著性差异;
2.通过Excel求解改进后的想法得到的结果如下:
S | 组1 | 组2 |
---|---|---|
红 | 0.92 | 0.47 |
白 | 0.2 | 0.18 |
即红白葡萄酒都是第一组评酒员更可信。那么在后面得分析中酒用第一组的数据作为葡萄酒的可信数据来进行分析;
第二问
- 根据酿酒葡萄理化指标个葡萄酒质量对酿酒葡萄进行分析
模型建立
1.降维处理
根据附件2,附件3的酿酒葡萄理化指标可以看出;因素太多了,而且芳香物质单独作为附件3出现;这么多的因素第一反映就是降维,方法很多,但是我当时只会主成分而且主成分也利于后面的主成分回归分析,于是就做了主成分的降维处理;
2.系统聚类
利用酒品的主成分得分对酒品进行聚类;选取聚类3~6类为合适;这里不选取K-means聚类是因为,K-menas聚类的聚类数K是主观设定的,不太好搞;不如利用系统聚类将聚类树画出来,然后筛选来的明了;
3.对聚类进行筛选
类之内的差别小,类之间的差别大;
4.对筛选好的类利用葡萄酒的质量进行分级
评酒员对酒品的平均评分即可代表酒品的质量;
模型求解
1.主成分分析
##麻烦1-因子选取##
开始想分类进行讨论,利用附件1中的评分指标来对理化指标进行分类,这样问题能明了很多,但是由于能力不够无从下手;通过观察发现二级指标的和基本为一级指标(除了颜色数据外),可以猜想颜色数据由特定的方式来反映颜色;于是我们考虑所有的一级指标为因子(30个),这里没有考虑附件3是因为,芳香物质主要是反映香气的是人嗅觉主观的评价很模糊不好量化,也猜想这是第四问中单独分析的一块;
(其实到这里还是很心虚的,觉得随便给它混过去算了)
于是对这30个因子进行主成分分析,首先数据标准化处理了。
##麻烦2-KMO检验##
发现主成分分析需要通过KMO检验;30个因子做主成分分析的时候压根就没有出现KMO检验,发现将因子减少后KMO检验就出现了,这应该是因子太多不适合主成分分析吧;因子太多不适合分析,那么必须得考虑减少因子,那能怎么办呢?当然是根据前人经验,论文,专家意见,最终得到我们需要的因子呗;最终在不断的尝试下,确定选取前20个因子(之所以确定前20个是因为在第21个因子固酸比
其实是可溶性固体/可滴定酸
,而且后面的因子看起来也没太多重要性);(反正得要去除因子了,那么不考虑附件3,完全不心虚了啊!有前人经验,我怕什么?!)
##麻烦3-主成分选取##
原始想法:主成分如何选取呢?买的教材上说累计贡献率超过90%就行;我们当时就是这样做的;
当时就发现了问题,SPSS默认的不是累计贡献率超过90%这个标准,当时也没考虑为什么。就自己将默认值改了,选取了累计贡献率超过90%的因子;得出的结果就是我们论文中的结果;与老师给的评分标准有偏差;
改进想法:通过上网查资料,发现SPSS的默认选项是选择特征值大于1的,然后累计贡献率过70%就可,也是碎石图
表现的结果;于是利用这个默认选项选取主成分,累计贡献率也超过了70%。不得不说的巧合,在这次改进中,第二问得出的结果与标准答案的评分标准完全一致。
(我们可不是边做边看答案的啊,这是做完后老师给出答案后,对模型进行改进)
2.系统聚类
根据酒品主成分的得分进行酒品的聚类,画出聚类树;
##麻烦4-聚类方法的选取##
因为后面需要求类的方差,那么单独一个酒品一个类的方差为0。一般选取样本的距离为欧氏距离
;SPSS选择最短、最长、重心距离的类距离的方法发现聚类的效果很差,就像是一个酒品一个酒品加,这样形成的聚类;然后发现常用的方法是瓦尔德法
,就试了试,发现效果很好,多个多个的聚类,单独一类的情况很少(附上红葡萄酒的聚类树图);容易看出瓦尔德法聚类得更好,也很容易通过聚类树来进行聚类的选取,这里我们考虑的是3~6个聚类为合适;
3.系统聚类的筛选
类似可信评价模型;给出红葡萄酒的聚类筛选结果;
明显分6类时更好;
4.利用葡萄酒质量就行分级
以葡萄酒品的平均评分代替质量,进行分级,给出红葡萄酒的分级结果;
根据每类的平均质量得出第四类为最佳级包含23号,第一类为最差级包含12号,和评分标准一致;
(到这里通过改进得出的结果都是很让我满意的)
第三问
- 分析酿酒葡萄与葡萄酒的理化指标之间的联系
模型建立
原始想法:这是讨论两组变量之间的相互联系,通过查书看到的方法有两种;一是典型相关分析,二是偏最小二乘回归分析;书上对典型相关分析讲得比较全,而且SPSS可以直接做典型相关分析,我也大概了解了,就选了典型相关分析;
回过头来重新看论文分析结果,发现典型相关模型不好解释第三问,于是考虑用回归模型,很简单可行的一个办法就是线性回归,刚好可以用主成分回归模型啊,因变量多就分开多回归几次呗;
改进想法:主成分回归模型
模型求解
-
典型相关分析
##麻烦5-结构系数##
典型相关分析的第一步也是要确定两组变量,葡萄酒的理化指标只有9个一级指标,利用酿酒葡萄的7个主成分可以代替原有的20个有效1级指标;第一次:利用葡萄酒的9个一级指标和酿酒普通的7个主成分进行典型相关分析;第一次我们第三问就得出了结果但并没有分析完;现在改进论文,重新对结果进行分析发现得出的结构系数很不尽人意,太多的负数(链接1),不好进行现实意义的解释;想着这应该是酿酒葡萄影响因子的选取不太对,不能选取主成分,况且利用主成分做典型相关也不好描叙原来因子之间的关系;结构系数如下:
第二次:考虑利用葡萄酒的9个一级指标和酿酒葡萄与葡萄酒相同的9个一级指标进行典型相关分析;得出的结构系数还是不尽人意;在网上找了半天终于找了问题的原因所在(链接2)这是因为原有的因子之间内部相关关系太强;结构系数如下:
最终我考虑这个典型相关分析模型,可能不太适合做这个题目,或者说解释起来很费力
(可能需要绞尽脑汁的胡扯吧)
- 主成分回归分析
(用这个回归模型很简单明了易操作的,开始为什么没有想到呢?可能被书上的方法限制了思想吧,就好比单纯的盗版模仿没有新意;)
根据第二问中的论述选取前20个酿酒葡萄的一级指标为因子,对葡萄酒的9个一级指标分别进行主成分回归分析,很快的就能得到结果;对得到的结果进行合理性解释就可以了;(主要包括显著性
,R方
以及模型参数
)
对比红白发现,红的之间线性关系明显,联系性强;白的之间线性关系不明显,联系性不强;这很有可能是红葡萄酒和白葡萄酒的制作工艺不同所导致的。从白的理化指标也可以看出将酿酒白葡萄制作成白葡萄酒后没了花色苷(所以叫白葡萄酒吧);
第四问
- 分析酿酒葡萄和葡萄酒得理化指标对葡萄酒质量得影响,并论证能否用葡萄和葡萄酒得理化指标来评价葡萄酒得质量
模型建立
原始想法:利用主成分回归分析,对结果进行合理性描述;酿酒葡萄用主成分,葡萄酒用一级指标,葡萄酒质量用平均评分,附件三的芳香物质没有用上(考虑到气味是人主观判别的不好量化,不能用芳香物质的理化指标来评价葡萄酒质量);
模型没有太多问题关键是对数据得处理上面出现了很大的问题,也是当时时间不够了的原因,数据处理得很仓促;数据处理的关键的问题在要突出芳香物质对葡萄酒质量的影响;那么考虑将芳香物质作为一个因子,很粗糙的做法就是将所有芳香物质做个总和作为芳香物质这一指标;
改进想法:将芳香物质作为新的一个因子加到原来的因子里面,酿酒葡萄就有21个因子进行主成分分析,葡萄酒就有9个因子进行多元线性回归分析,然后对结果进行合理性解释。
模型求解
与第三问类似;求解结果的模型参数可以说明理化指标对葡萄酒质量的影响;求解结果的显著性显示,酿酒葡萄21因子主成分回归分析的显著性强,线性关系明显,可以利用酿酒葡萄的指标来进行评价,并且白(0.005)比红(0.036)显著性更高;但葡萄酒9因子多元回归分析的显著性不太强,线性关系不明显,不适合利用其来进行评价;
但是芳香物质这一指标的处理很粗糙,可能有更好的方法来对这一指标进行处理(这也可以作为我们模型的展望吧);
- 总过程思维导图
到这就基本结束了,前述都是整个做题的经过以及改进的经过,至于数据及结果并未全放上(不知道搞);能力有限,有误之处,望斧正;也可以和我交流交流,共同进步;