复制文本格式错乱,原文档点击此处(文档更新)
葡萄酒的评价
摘 要
本文针对葡萄酒的评价问题,建立了单因子方差分析模型,解决了两组评价结果有 无具有显著性差异的问题;建立了基于优势矩阵的等级划分模型,解决了对两组葡萄样 本进行了等级划分的问题;建立了关联度分析和逐步回归分析模型,解决了酿酒葡萄和 葡萄酒的理化指标之间的联系;最后对逐步回归分析法作多级嵌套改进,对葡萄和葡萄 酒的理化指标能否评价葡萄酒质量的命题进行了论证。 针对问题一,建立了单因子方差分析模型,解决了两组评价结果有无具有显著性差 异的问题。首先,对指标的单因素进行检验,解决评分是否相同的问题;其次,计算每 组样品酒平均得分,以此计算出统计量 F 和方差。显著性水平为 0.05 的 F 检验计算结果 表明,红葡萄酒有显著差异,白葡萄酒差异不显著。方差计算结果表明,第二组评分的 方差为 0.2,第一组为 0.8,因此判定第二组评分更可信。 针对问题二,建立了聚类分析法模型,解决了葡萄酒分级的问题。首先,通过查阅 文献筛选出关键性理化指标来构建含外观,风味,加工和营养品质等指标的分级体系; 其次,根据取的关键性指标,运用 K-均值聚类法对其相似性进行分类;确立了含外观, 风味,加工和营养品质的优势因子矩阵。聚类分析结果表明:得出优秀葡萄酒对应的酿 酒葡萄赋予 1,4,7,10 的优势因子分别对应构建分级体系中较差,中等,良好,和优秀的 四个等级。 针对问题三,建立了多元回归模型,解决了指标之间存在相关性的问题。首先,基 于酿酒葡萄与葡萄酒的理化指标数据,构造了相关系数矩阵,利用 person 相关系数对理 化指标进行了关联性分析;其次,选取关联性高的指标进行了假设性探究;再次,考虑 了葡萄的多个理化指标对葡萄酒理化指标的综合影响,运用了逐步回归分析,得到相应 的回归方程,并选取了其中检验量高的指标组合进行了假设性影响分析。 针对问题四,首先将葡萄酒的质量评价划分为外观、香气和口感三种类型的评价, 其次,分别针对三个方面以酒酿葡萄和葡萄酒的理化指标进行关联系分析;其次,在逐 步回归分析的基础上作多级嵌套改进,分别用第一级和第二级对葡萄酒理化指标和葡萄 酒质量、酒酿葡萄和葡萄酒理化指标进行了逐步回归分析,最终经过论证得到红葡萄酒 的香气和口感可以通过葡萄和葡萄酒的理化指标进行评价,并针对无法进行评价的部分 进行了论证分析。最后,对模型中运用的方法进行了科学性分析,并讨论了模型的优缺 点,考虑了实际应用中的改进方向,提出了一些优化策略。 关键词: 单因子方差分析;聚类分析;优势矩阵;多元回归 1 一、 问题重述 1 . 1 问题背景 确定葡萄酒质量的好坏需要有资质的评酒员对其进行分类指标打分。每个评酒员根 据品尝后的结果对其外观、口感等分类指标打分,并且求和得到其总分,最后综合确定 葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量具有直接的关系,葡萄酒和酿酒葡 萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。 1 . 2 问题重述 该题已知三个附件,其中附件一给出了某一年份一些葡萄酒的评价结果,附件二和 附件三分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。本文尝试利用已知数据 对葡萄酒质量进行分析,建立数学模型讨论下列问题: 对于附件 1 中的红葡萄酒与白葡萄酒,每种葡萄酒均有两组评酒员进行打分试分析 两组评酒员的评价结果有无显著性差异,并判断哪组结果可信度更高。 综合评价所得到的葡萄酒的质量和酿酒葡萄的理化指标,对这些酿酒葡萄进行分 级。分析酿酒葡萄与葡萄酒的两组理化指标之间有何关系。分析酿酒葡萄的理化指标、 葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价 葡萄酒的质量。 二、 问题分析 问题思路整体较为清晰。问题一是需要分析附件 1 中两组的评酒员的评价结果,以 此判断有无显著性差异,根据检验结果分析哪一组结果更加可信。问题二是要求根据葡 萄的理化指标和葡萄酒的质量对附件 2 中酿酒葡萄进行分级。问题三是要求根据多元回 归模型分析酿酒葡萄金和葡萄酒的理化指标之间的联系。问题四是在问题三回归分析的 基础上,对葡萄酒的评分和理化指标进行多元回归分析和逐步回归分析,得出理化指标 的成分。 2 . 1 问题一的分析 本题属于分析显著性差异问题,解决此类问题常见的分析方法有独立样本 t 检验, 方差分析(ANOVA), 非参数检验等。根据本题已知条件,需要对多个群体之间的差异 性进行比较,宜于选择单因子方差分析法。此方法的建模思想是根据总体均值的差异来 推断不同群体之间的显著性差异。在进行差异性检验之前,需要对数据进行预处理,本 文采取对附件 1 中的部分数据进行剔除的方法来确保数据的严谨性。该方法的建模过程 需要建立假设,数据收集和处理,计算各组统计量、计算总体和组间方差、计算组内方 差以及进行假设检验。求解此类模型常用的计算方法有计算均值,计算组间的平方和, 计算 p 值等方法,根据本题附件的条件值,宜于选择计算均值,计算出 p-value, 及 F 值 等方法。其中 p-value 表示观测到的统计量或更极端情况下出现的概率,用于评估观测 数据与原假设的一致性;而 F 值则是通过比较组间变异和组内变异的相对大小,来判断 组间差异是否显著。其均基于统计假设检验的数学思想,需要建立假设得到统计量,计 算组间的均方,通过进一步分析可以推断哪一组更具有显著性。方差是考察数据的波动 性的,方差小就说明数据比较稳定,方差大就是波动性比较大,故通过比较两组数据的 方差大小,可判断哪组结果更为可信。 2 2 . 2 问题二的分析 本题属于评价类问题,解决此类问题的常见方法有主成分分析法,聚类分析法,层 次分析法,优劣解距离法,灰色关联分析法等。根据本题条件和基于聚类分析旨在寻找 样本间的差异性来对其进行分组的特点,宜于选择聚类分析法求解。该方法的建模思想 是是基于数据的相似性或距离度量,将数据点划分为不同的群集或类别。此方法需要对 数据进行标准化处理,消除不同量纲的差异性。最后对其进行聚类分析。此方法的建模 过程是对数据进行标准化处理,处理结果进行聚类分析,再进检验评估。求解此类模型 常用的计算方法有 K-means 算法,层次聚类算法等,根据本文条件,宜于选择隶属度函 数算法来实现,计算结果分别得出红白葡萄样品的分级结果。最后将两种结果进行分析 和比较一致性检验,判断得出两者的结果比较一致。 2 . 3 问题三的分析 问题要求分析酿酒葡萄与葡萄酒的理化指标之间的联系,由此本问题属于相关性分 析问题。解决此类问题的常见方法有相关系数,散点图,回归分析,协方差矩阵等方法。 针对本文条件中多因素之间的关联性分析,宜于选择回归方法,寻求多因素之间贴近数 值关联的函数关系。此类方法的计算方法有线性回归模型,最小二乘法,矩阵运算方等 方法。根据本题条件,宜于选择线性回归模型的求解。通过使用逐步回归,以酿酒葡萄 理化指标为解释变量分别求解对应各项葡萄酒理化指标为被解释变量的回归方程,得到 相应的数量关系并以此作分析。 2 . 4 问题四的分析 题目中评酒员通过外观品质、香气品质和口感品质三种类型的指标对葡萄酒的质量 进行评价,因此针对理化指标对葡萄酒质量的影响分析可从该三种类型着手进行探究。 对于外观品质和香气品质,应分别与酿酒葡萄和葡萄酒的理化指标和芳香物质指标具有 较大的关联,而口感品质相对较为复杂,可能与理化指标和芳香物质指标均具备一定的 关联。因此可将酿酒葡萄和葡萄酒的理化指标和芳香物质指标分别在三种类型的指标上 进行关联性分析,对其关联度高的指标,分析其对葡萄酒质量的影响的体现。类比于问 题三的分析,由于化学反应和物质呈现性质的复杂性,理化指标对葡萄酒质量的影响更 可能属于多因素影响单一因素,则可针对理化指标和葡萄酒质量进行逐步回归分析。考 虑到与葡萄酒的质量成最直接关联的应该是葡萄酒中的化学物质,即其对应的理化指 标;而酿酒葡萄中的理化指标由于经过酿酒过程转化成葡萄酒中的理化指标,其对于葡 萄酒质量的影响则相应较低。因此可在逐步回归分析的基础上基于葡萄和葡萄酒的关系 扩展成多级逐步回归分析,第一级以葡萄酒的理化指标为解释变量与葡萄酒的质量进行 直接逐步回归分析;第二级则以葡萄的理化指标为解释变量与葡萄酒的理化指标进行回 归分析;从而论证是否能用葡萄和葡萄酒的理化指标评价葡萄酒的质量这一命题则可转 化为:(1) 针对葡萄酒的理化指标,是否能通过逐步回归分析得到关于葡萄酒理化指标 和葡萄酒质量的回归方程,并且方程的检验量能通过显著性检验;(2) 针对葡萄的理化 指标,仅当 (1) 情况得以成立时,是否能通过逐步回归分析得到关于葡萄理化指标和葡 萄酒理化指标的回归方程,并且方程的检验量能通过显著性检验。 三、 基本假设 1. 评酒员打分相互之间没有影响; 2. 评酒员对样品的给的总分是他对该样品所有方面评分的总和,并且该样品的最终得 分可认为是 10 位评酒员打分的平均值; 3 3. 酿酒方式及酿酒过程对葡萄酒的质量没有影响; 4. 所有样品的酿酒过程相同; 5. 题目所给的数据真实可靠。 四、 符号说明 SS: 表示误差平方和 Ari: 表示编号为 i 的红种葡萄的理化指标 γi−j : 表示葡萄酒中编号为 i 的理化指标与酿酒葡萄中编号为 j 的理化指标的关联度 Scorerprocess r : 表示红种葡萄加工品质类别的聚类类别优势值 Scorerhealth r : 表示红种葡萄保健品质类别的聚类类别优势值 五、 模型建立与求解 5 . 1 问题一的模型建立与求解 5 . 1 . 1 模型建立 为比较两组评级结果有无显著性差异,应先处理附件 1 中所给数据。由附件一中 27 种红葡萄酒样品和 28 种白葡萄酒样品的数据可知,第一组 4 号评酒员在评价红葡萄酒 样品 20 号时,在外观分析方面没有给出具体分数,同样的,第一组 7 号评酒员评价白 葡萄酒 3 号时,在口感分析方面,给出了远超于持久性的分数,,为保证数据分析的严 谨性,我们把红葡萄酒样品 20 号和白葡萄酒 3 号的数据剔除,因此,只剩下 26 种红葡 萄酒样品和 27 种白葡萄酒样品。对于每件样品,评酒员对外观,香气,口感,及其整体 评价进行打分,每-组的每件样品都有十名品酒员进行评分,故求每个品酒员对样品酒 的总分,之后求出这 10 名品酒员给的总分的平均分,此平均分就是该样品的总分. 5 . 1 . 1 . 1 模型的数学原理 对于哪组数据更加可信,我们知道方差是考察数据的波动性的,方差小就说明数据 比较稳定,方差大就是波动性比较大。故我们将红酒,白酒每组样品酒一一对应,第一 组的红酒中样品一与第二组红酒中的样品一进行方差分析,以此类推。 判断 A 的 r 个水平对指标的有无显著性影响,相当于要作以下的假设检验:原假设 H0 : µ1 = µ2 = ... = µr; 备注假设 H1 : µ1...,µr 不全相等由于 Xij 的取值既受不同水平 Ai 的影响,又受 Ai 固定下随机因素的影响,所 以将它分解为 Xij = µi+ + εij , i = 1, 2, ...r, j = 1,