2012年数学建模大赛A题论文+代码

复制文本格式错乱,原文档点击此处


葡萄酒的评价

 摘 要

本文针对葡萄酒的评价问题,建立了单因子方差分析模型,解决了两组评价结果有 无具有显著性差异的问题;建立了基于优势矩阵的等级划分模型,解决了对两组葡萄样 本进行了等级划分的问题;建立了关联度分析和逐步回归分析模型,解决了酿酒葡萄和 葡萄酒的理化指标之间的联系;最后对逐步回归分析法作多级嵌套改进,对葡萄和葡萄 酒的理化指标能否评价葡萄酒质量的命题进行了论证。 针对问题一,建立了单因子方差分析模型,解决了两组评价结果有无具有显著性差 异的问题。首先,对指标的单因素进行检验,解决评分是否相同的问题;其次,计算每 组样品酒平均得分,以此计算出统计量 F 和方差。显著性水平为 0.05 的 F 检验计算结果 表明,红葡萄酒有显著差异,白葡萄酒差异不显著。方差计算结果表明,第二组评分的 方差为 0.2,第一组为 0.8,因此判定第二组评分更可信。 针对问题二,建立了聚类分析法模型,解决了葡萄酒分级的问题。首先,通过查阅 文献筛选出关键性理化指标来构建含外观,风味,加工和营养品质等指标的分级体系; 其次,根据取的关键性指标,运用 K-均值聚类法对其相似性进行分类;确立了含外观, 风味,加工和营养品质的优势因子矩阵。聚类分析结果表明:得出优秀葡萄酒对应的酿 酒葡萄赋予 1,4,7,10 的优势因子分别对应构建分级体系中较差,中等,良好,和优秀的 四个等级。 针对问题三,建立了多元回归模型,解决了指标之间存在相关性的问题。首先,基 于酿酒葡萄与葡萄酒的理化指标数据,构造了相关系数矩阵,利用 person 相关系数对理 化指标进行了关联性分析;其次,选取关联性高的指标进行了假设性探究;再次,考虑 了葡萄的多个理化指标对葡萄酒理化指标的综合影响,运用了逐步回归分析,得到相应 的回归方程,并选取了其中检验量高的指标组合进行了假设性影响分析。 针对问题四,首先将葡萄酒的质量评价划分为外观、香气和口感三种类型的评价, 其次,分别针对三个方面以酒酿葡萄和葡萄酒的理化指标进行关联系分析;其次,在逐 步回归分析的基础上作多级嵌套改进,分别用第一级和第二级对葡萄酒理化指标和葡萄 酒质量、酒酿葡萄和葡萄酒理化指标进行了逐步回归分析,最终经过论证得到红葡萄酒 的香气和口感可以通过葡萄和葡萄酒的理化指标进行评价,并针对无法进行评价的部分 进行了论证分析。最后,对模型中运用的方法进行了科学性分析,并讨论了模型的优缺 点,考虑了实际应用中的改进方向,提出了一些优化策略。 关键词: 单因子方差分析;聚类分析;优势矩阵;多元回归 1 一、 问题重述 1 . 1 问题背景 确定葡萄酒质量的好坏需要有资质的评酒员对其进行分类指标打分。每个评酒员根 据品尝后的结果对其外观、口感等分类指标打分,并且求和得到其总分,最后综合确定 葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量具有直接的关系,葡萄酒和酿酒葡 萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。 1 . 2 问题重述 该题已知三个附件,其中附件一给出了某一年份一些葡萄酒的评价结果,附件二和 附件三分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。本文尝试利用已知数据 对葡萄酒质量进行分析,建立数学模型讨论下列问题: 对于附件 1 中的红葡萄酒与白葡萄酒,每种葡萄酒均有两组评酒员进行打分试分析 两组评酒员的评价结果有无显著性差异,并判断哪组结果可信度更高。 综合评价所得到的葡萄酒的质量和酿酒葡萄的理化指标,对这些酿酒葡萄进行分 级。分析酿酒葡萄与葡萄酒的两组理化指标之间有何关系。分析酿酒葡萄的理化指标、 葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价 葡萄酒的质量。 二、 问题分析 问题思路整体较为清晰。问题一是需要分析附件 1 中两组的评酒员的评价结果,以 此判断有无显著性差异,根据检验结果分析哪一组结果更加可信。问题二是要求根据葡 萄的理化指标和葡萄酒的质量对附件 2 中酿酒葡萄进行分级。问题三是要求根据多元回 归模型分析酿酒葡萄金和葡萄酒的理化指标之间的联系。问题四是在问题三回归分析的 基础上,对葡萄酒的评分和理化指标进行多元回归分析和逐步回归分析,得出理化指标 的成分。 2 . 1 问题一的分析 本题属于分析显著性差异问题,解决此类问题常见的分析方法有独立样本 t 检验, 方差分析(ANOVA), 非参数检验等。根据本题已知条件,需要对多个群体之间的差异 性进行比较,宜于选择单因子方差分析法。此方法的建模思想是根据总体均值的差异来 推断不同群体之间的显著性差异。在进行差异性检验之前,需要对数据进行预处理,本 文采取对附件 1 中的部分数据进行剔除的方法来确保数据的严谨性。该方法的建模过程 需要建立假设,数据收集和处理,计算各组统计量、计算总体和组间方差、计算组内方 差以及进行假设检验。求解此类模型常用的计算方法有计算均值,计算组间的平方和, 计算 p 值等方法,根据本题附件的条件值,宜于选择计算均值,计算出 p-value, 及 F 值 等方法。其中 p-value 表示观测到的统计量或更极端情况下出现的概率,用于评估观测 数据与原假设的一致性;而 F 值则是通过比较组间变异和组内变异的相对大小,来判断 组间差异是否显著。其均基于统计假设检验的数学思想,需要建立假设得到统计量,计 算组间的均方,通过进一步分析可以推断哪一组更具有显著性。方差是考察数据的波动 性的,方差小就说明数据比较稳定,方差大就是波动性比较大,故通过比较两组数据的 方差大小,可判断哪组结果更为可信。 2 2 . 2 问题二的分析 本题属于评价类问题,解决此类问题的常见方法有主成分分析法,聚类分析法,层 次分析法,优劣解距离法,灰色关联分析法等。根据本题条件和基于聚类分析旨在寻找 样本间的差异性来对其进行分组的特点,宜于选择聚类分析法求解。该方法的建模思想 是是基于数据的相似性或距离度量,将数据点划分为不同的群集或类别。此方法需要对 数据进行标准化处理,消除不同量纲的差异性。最后对其进行聚类分析。此方法的建模 过程是对数据进行标准化处理,处理结果进行聚类分析,再进检验评估。求解此类模型 常用的计算方法有 K-means 算法,层次聚类算法等,根据本文条件,宜于选择隶属度函 数算法来实现,计算结果分别得出红白葡萄样品的分级结果。最后将两种结果进行分析 和比较一致性检验,判断得出两者的结果比较一致。 2 . 3 问题三的分析 问题要求分析酿酒葡萄与葡萄酒的理化指标之间的联系,由此本问题属于相关性分 析问题。解决此类问题的常见方法有相关系数,散点图,回归分析,协方差矩阵等方法。 针对本文条件中多因素之间的关联性分析,宜于选择回归方法,寻求多因素之间贴近数 值关联的函数关系。此类方法的计算方法有线性回归模型,最小二乘法,矩阵运算方等 方法。根据本题条件,宜于选择线性回归模型的求解。通过使用逐步回归,以酿酒葡萄 理化指标为解释变量分别求解对应各项葡萄酒理化指标为被解释变量的回归方程,得到 相应的数量关系并以此作分析。 2 . 4 问题四的分析 题目中评酒员通过外观品质、香气品质和口感品质三种类型的指标对葡萄酒的质量 进行评价,因此针对理化指标对葡萄酒质量的影响分析可从该三种类型着手进行探究。 对于外观品质和香气品质,应分别与酿酒葡萄和葡萄酒的理化指标和芳香物质指标具有 较大的关联,而口感品质相对较为复杂,可能与理化指标和芳香物质指标均具备一定的 关联。因此可将酿酒葡萄和葡萄酒的理化指标和芳香物质指标分别在三种类型的指标上 进行关联性分析,对其关联度高的指标,分析其对葡萄酒质量的影响的体现。类比于问 题三的分析,由于化学反应和物质呈现性质的复杂性,理化指标对葡萄酒质量的影响更 可能属于多因素影响单一因素,则可针对理化指标和葡萄酒质量进行逐步回归分析。考 虑到与葡萄酒的质量成最直接关联的应该是葡萄酒中的化学物质,即其对应的理化指 标;而酿酒葡萄中的理化指标由于经过酿酒过程转化成葡萄酒中的理化指标,其对于葡 萄酒质量的影响则相应较低。因此可在逐步回归分析的基础上基于葡萄和葡萄酒的关系 扩展成多级逐步回归分析,第一级以葡萄酒的理化指标为解释变量与葡萄酒的质量进行 直接逐步回归分析;第二级则以葡萄的理化指标为解释变量与葡萄酒的理化指标进行回 归分析;从而论证是否能用葡萄和葡萄酒的理化指标评价葡萄酒的质量这一命题则可转 化为:(1) 针对葡萄酒的理化指标,是否能通过逐步回归分析得到关于葡萄酒理化指标 和葡萄酒质量的回归方程,并且方程的检验量能通过显著性检验;(2) 针对葡萄的理化 指标,仅当 (1) 情况得以成立时,是否能通过逐步回归分析得到关于葡萄理化指标和葡 萄酒理化指标的回归方程,并且方程的检验量能通过显著性检验。 三、 基本假设 1. 评酒员打分相互之间没有影响; 2. 评酒员对样品的给的总分是他对该样品所有方面评分的总和,并且该样品的最终得 分可认为是 10 位评酒员打分的平均值; 3 3. 酿酒方式及酿酒过程对葡萄酒的质量没有影响; 4. 所有样品的酿酒过程相同; 5. 题目所给的数据真实可靠。 四、 符号说明 SS: 表示误差平方和 Ari: 表示编号为 i 的红种葡萄的理化指标 γi−j : 表示葡萄酒中编号为 i 的理化指标与酿酒葡萄中编号为 j 的理化指标的关联度 Scorerprocess r : 表示红种葡萄加工品质类别的聚类类别优势值 Scorerhealth r : 表示红种葡萄保健品质类别的聚类类别优势值 五、 模型建立与求解 5 . 1 问题一的模型建立与求解 5 . 1 . 1 模型建立 为比较两组评级结果有无显著性差异,应先处理附件 1 中所给数据。由附件一中 27 种红葡萄酒样品和 28 种白葡萄酒样品的数据可知,第一组 4 号评酒员在评价红葡萄酒 样品 20 号时,在外观分析方面没有给出具体分数,同样的,第一组 7 号评酒员评价白 葡萄酒 3 号时,在口感分析方面,给出了远超于持久性的分数,,为保证数据分析的严 谨性,我们把红葡萄酒样品 20 号和白葡萄酒 3 号的数据剔除,因此,只剩下 26 种红葡 萄酒样品和 27 种白葡萄酒样品。对于每件样品,评酒员对外观,香气,口感,及其整体 评价进行打分,每-组的每件样品都有十名品酒员进行评分,故求每个品酒员对样品酒 的总分,之后求出这 10 名品酒员给的总分的平均分,此平均分就是该样品的总分. 5 . 1 . 1 . 1 模型的数学原理 对于哪组数据更加可信,我们知道方差是考察数据的波动性的,方差小就说明数据 比较稳定,方差大就是波动性比较大。故我们将红酒,白酒每组样品酒一一对应,第一 组的红酒中样品一与第二组红酒中的样品一进行方差分析,以此类推。 判断 A 的 r 个水平对指标的有无显著性影响,相当于要作以下的假设检验:原假设 H0 : µ1 = µ2 = ... = µr; 备注假设 H1 : µ1...,µr 不全相等由于 Xij 的取值既受不同水平 Ai 的影响,又受 Ai 固定下随机因素的影响,所 以将它分解为 Xij = µi+ + εij , i = 1, 2, ...r, j = 1, 2...., ni , 式中:εij N (0, σ2 ), 且相互独立。引入记号 µ = 1 n Xr i=1 ni , n = Xr i=1 ni , αi = µi − µ, i = 1, 2, ...r 4 , 式中:µ 为总均值;αi 为水平 Ai 下总体的平均值 µi 与总平均值 µ 的差异,习惯上称为 指标 Ai 的效应。由第一个模型可表示为    Xij = µ + αi+ + εij , Pr i=1 niαi = 0, εijN (0, σ2 ) ,i = 1, 2..., r, j = 1, 2, ..., ni 5 . 1 . 2 模型求解 分析两组评酒员的评价结果是否有显著性差异,我们采用单因素方差分析法来分析 单一控制变量影响下的多组样本均值解决此问题。只考虑一个因素 A 对所关心的指标 的影响,A 取几个水平,在每个水平上作若干个试验,试验过程中除 A 外其它影响指标 的因素都保持不变(只有随机因素存在),我们的任务是从试验结果推断,因素 A 对指 标有无显著影响,即当 A 取不同水平时指标有无显著差别。A 取某个水平下的指标视为 随机变量,判断 A 取不同水平时指标有无显著差别,相当于检验若干总体的均值是否相 等。设 A 取 n 个水平 A1, A2, A3.......An, 在水平 Ai 下总体 xi 有相同的方差,又设在每个 水平 Ai 下作了 ni 次独立检验,即从中抽取容量为 ni 的样本,记作 xij,j = 1, ....nj ,xij 服从 N (ui , δ2 ),i = 1, ..., n, j = 1, ..., ni 且相互独立,将这些数据列成表 1 形式(单因素 试验数据表) 表 1 单因素试验数据表 分值 第一组红葡萄酒 第二组红葡萄酒 第一组白葡萄酒 第二组白葡萄酒 A1 x12 x21 x12 x21 A2 x21 x22 x21 x22 ... ... ... ... ... An xn1 xn1 xn1 xn2 根据上述理论,对附件 1 中的四组数据进行处理,采用单因子方差分析法,本文将 样品酒的总分作为唯一考虑因素 A, 运用 matlab 软件编程求出评酒员对每组样品打的总 分的平均分,见下表: 由四组数据可知,本文将白酒和红酒分开来判断其有无显著性,即将第一组白酒与 第二组白酒进行比较,第一组红酒与第二组红酒进行比较。运用 matlab 软件对数据处理 编程得到以下结果,标准 ANOVA 分析表见如下: 表 3 红葡萄酒单因素方差分析表 Source SS df MS F Prob>F Columns 89.45 1 89.4491 2.55 0.1163 Error 1823.96 52 35.0762 Total 1913.41 53 5 表 2 样品红酒和白酒的总分 样品号 一红酒综合评分 一白酒综合评分 二红酒综合评分 二白酒综合评分 1 62.7 82 68.1 77.9 2 80.3 74.2 74 75.8 3 80.4 79.7 74.6 75.6 4 68.6 79.4 71.2 76.9 5 73.3 71 72.1 81.5 6 72.2 68.4 66.3 75.5 7 71.5 77.5 65.3 74.2 8 72.3 71.4 66 72.3 9 81.5 72.9 78.2 80.4 10 74.2 74.3 68.8 79.8 11 70.1 72.3 61.6 71.4 12 53.9 63.3 68.3 72.4 13 74.6 65.9 68.8 73.9 14 73 72 72.6 77.1 15 58.7 72.4 65.7 78.4 16 74.9 74 69.9 67.3 17 79.3 78.8 74.5 80.3 18 59.9 73.1 65.4 76.7 19 78.6 72.2 72.6 76.4 20 79.5 77.8 75.8 76.6 21 77.1 76.4 72.2 79.2 22 77.2 71 71.6 79.4 23 85.6 75.9 77.1 77.4 24 78 73.3 71.5 76.1 25 69.2 77.1 68.2 79.5 26 73.8 81.3 72 74.3 27 73 64.8 71.5 77 28 81.3 79.6 表 4 白葡萄酒单因素方差分析表 Source SS df MS F Prob>F Columns 89.034 1 86.0339 5.11 0.0278 Error 909.11 54 16.8354 Total 995.144 55 6 表 5 方差分析表 方差来源 平方和(SS) 自由度 (df) 均方 (MS) 1-P 分数位 F 概率 Columns SA r-1 SA = SA r−1 F1−Pr (r − 1, n − 1) pr Error SE n-r SE = SE n−1 Total ST 图 1 红葡萄酒盒型(box)图 7 图 2 白葡萄酒盒型(box)图 5 . 1 . 3 问题结论 通常情况下,实验结果 p 达到 0.05 水平或 0.01 水平,才可以说数据之间具备了差 异显著或是极显著。在作结论时,应确实描述方向性(例如显著大于或显著小于)。sig 值通常用 P > 0.05 表示差异性不显著。在此我们取 0.05 作为显著性水平标准,红酒中 的 ANOVA 表中 Prob > F 栏 p 值为 0.0278 < 0.05,故拒绝 Ho,且盒型图的中心线差差 别不大,对应的 F 也很小,故可知品酒员对白葡萄酒的评分具有显著性。红葡萄酒酒中 的 ANOVA 表中的 P > 0.05,接受 Ho,故没有显著性。 从两副图中,我们很明显的看到第二组数据的方差小于第一组数据,因此,我们认 为第二组的数据更可信 5 . 2 问题二的模型建立与求解 (1)K-均值聚类 [1] 法的引入为消除理化指标间数量级的差异导致的比较困难,更直 观地分析数据,这里使用模型准备中归一化和极大化处理后的调整指标数据。进一步考 虑到以任意单一种类葡萄为评价对象,其品质的优劣评价需要充分兼顾葡萄的各项理化 指标,需要综合指标之间的相似性进行划分。因此可通过聚类方法,结合以上葡萄理化 指标体系,从四个方面对理化指标进行聚类。在此使用 K-均值聚类算法对酿酒葡萄的理 化指标进行聚类。K-均值聚类算法是一种简单高效的无监督学习算法,此种方法能够快 速有效地用于已知类数 m 的数据聚类和分析。其基本步骤描述如下 步骤 1 初始化给定类的个数 m,同时置 j==0,从样本向量中任意选定 m 个向 量 k j 1 .....kj 2k j m 作为聚类中心,k j i = k j i1 , kj i1 , kj i1 , ..kj in ,(i = 1, 2, 3, ...k). 其中 n 为输入 向量得到维数,并将中心为 k j i 聚类块记为 K j i 步骤 1 样本回归将每个样本向量 xl = [xl1, xl2, ...xln] T,按照欧几里得距计算式 xl − k j i = min x 1≤h≤m xl − k j m 归入到中心 k j i . 8 步骤 3 中心调整重新调整聚类中心,心得的聚类中心 k j i 由下式计算得到,即 k j+1 ih = P xli h Ni 式中 Ni 表示聚块类 K j i 的向量数 步骤 4 条件判断构建迭代目标函数 J 如下 J = Xn m=1 X xmϵk |xk − ki | 将步骤 1 中的数据代入上式,判断函数值 J。如果 J 不再明显改变,则迭代终止;否则 j=j+1, 转步骤 1 由上述分析可知,衡量酿酒葡萄的品质优劣的理化指标较为繁杂,因此需筛选合理 的指标作为代表。通过查阅相关文献,可知葡萄的整体品质可划分为四个方面进行评价, 分别为外观品质、风味品质、加工品质和营养品质 [0]。此外,考虑到酿酒葡萄的主要用 途是酿制葡萄酒,则最终酒的成品质量也可作为衡量葡萄品质的一个指标。依据四种品 质的衡量标准 [3],结合题目附件提供的酿酒葡萄理化指标,进行指标筛选,得到酿酒葡 萄品质评价的理化指标体系如下 首先,本文所建立的模型与实际情况相符合,具有一定的指导性。同时可针对型进 行更深层次的分析,如在原来的基础上,改变或者增加葡萄和葡萄酒理化指标和芳香物 质,仍可得到其对葡萄酒质量的影响。总体而言,模型具有一定的一般性,便于进一步 推广,不仅可以用于葡萄酒质量评价的探究,同样可以应用于食品质量评价、工业物资 分析等各领域的评价探究。在具体的实施中可根据不同的实际背景对模型进行修改,在 参数的设定上也可以根据实际情况随时变化,如按不同的要求,可根据具体的分析对数 据进行合理的统计处理,根据模型的核心方法,能较为方便地解决问题。 5 . 3 模型的求解 结合酿酒葡萄的理化指标体系,基于 K-均值聚类法进行聚类,分别获得了外观品质 等四项类别的最终聚类中心矩阵,限于篇幅问题,以下以红种葡萄的外观品质为例,对 优势因子矩阵的建立步骤进行描述:由上可得红种葡萄的最终聚类中心矩阵为 表 6 聚类中心矩阵表 I II III IV F Ar24 0.100 0.151 0.489 0.156 Ar25 0.068 0.273 0.636 0.087 Ar28 0.150 0.357 0.661 0 Ar30 0.034 0.097 0.049 1.000 Ar31 0.785 0.812 0.0.083 0 Ar5 0.540 0.143 0.253 0 Ar29 0.779 0.491 0.425 0.153 矩阵中 Ari 为编号为 i 的红种葡萄酒的理化指标,编号依据附件数据中从左往右的 次序依次排列。对以上中心矩阵中的每一项理化指标,根据其在相应类别的数值大小赋 9 予优势因子,考虑到优势因子的设置应尽可能刻画出指标数值的差异性,在此定义优势 因子集合为 A = {1, 4, 7, 10} 由于各理化指标均转化为极大型指标,指标的数值越大,其 优势相应更能突出。因此,对以上中心矩阵的每一项指标,根据四个类别的数值从小到 大分别赋予优势因子 1,4,7,10,得到红种葡萄外观品质的优势因子矩阵如下 Scoreappearance Ar =            1 4 7 1 7 4 4 7 1 4 7 10 1 10 1 10 4 1 10 7 1            分别对该优势因子矩阵每一列的向量进行求和,得到列向量因子求和矩阵 Scoreappearance r = [31, 46, 52, 25] 该求和矩阵中每个数值分别表示红种葡萄外观品质的最终聚类中心矩阵里,其所在列对 应的聚类类别的优势因子总和,根据其大小排序反映该类别所处的等级。进一步,再次 根据四个数值从小到大的次序向其赋予优势因子 1,4,7,10,得到聚类类别优势矩阵 Scoreappearance r = [4, 7, 10, 11] 矩阵基于优势因子的数值差异对聚类的中心矩阵得到的四个类别重新进行了等级划分。 进一步,除酿酒质量以外,对葡萄理化指标体系中的剩余三项品质类别依次进行 K-均值 聚类,得到其聚类中心矩阵,再分别构建以上优势因子矩阵,得到三项品质类别的聚类 类别优势矩阵为 Scoref lavor r = [10, 4, 7, 1] Scoreprocess r = [1, 4, 10, 7] Scorehealth r = [10, 1, 7, 4] 其中 Scoref lavor r 表示红种葡萄风味品质类别的聚类类别优势值; Scoreprocess r 表示红种葡萄加工品质类别的聚类类别优势值; Scorehealth r 表示红种葡萄保健品质类别的聚类类别优势值 得到红种葡萄的品质类别综合优势矩阵如下 (3)葡萄酿酒质量的优势矩阵据问题一的分析结果可知,针对红葡萄酒,第一组评 酒员的评价结果更为可信。考虑到对每种类别的红葡萄酒均有 10 位评酒员进行评分,在 此认为每位评酒员对于评价葡萄酒质量时所做的评价贡献是等同的,则对于每种红葡萄 酒,可通过计算 10 为评酒员对其所评分值的均值作为其质量评分。以葡萄酒评论家罗 伯特·帕克的葡萄酒质量为基准,结合题目数据的数量级和分布特征进行调整,得到适 用于本文葡萄酒质量分级体系 10 表 7 红种葡萄品质的综合图 I II III IV F Scoreappearance Ar 4 7 10 1 Scoref lavor r 10 4 7 1 Scoreprocess r 1 4 10 7 Scorehealth r 10 1 7 4 [8.5, 10] −→ 优秀 (7.5, 8.5) −→ 良好 [6.5, 7.5] −→ 中等 [0, 6.5] −→ 较差 一步,分别对该分级体系中处于较差、中等、良好和优秀的葡萄酒对应的酿酒葡萄 赋予 1,4,7,10 的优势因子,得到葡萄酿酒质量类别优势矩阵 Scorequality r . (4) 综合优势等级划分以上已经确立了红种葡萄的外观品质、风味品质、加工品质 和营养品质四项类别的聚类类别优势矩阵,考虑到实际中葡萄品质的优劣界定中四种类 别的指标的贡献程度较难明显地区分,在此认为四种类别的指标在判别葡萄品质时所贡 献的数值优势是相等的,取其均值作为等级划分的平衡优势值。因此,可得到基于四项 类别优势划分的平衡类别优势值 Scoreaverage r = Scoreappearance r + Scoref lavor r + Scoreprocess r + Scorehealth r 4 结合实际情况分析,相较于普通的葡萄品种,酿酒葡萄是为酿造葡萄酒而规模性种植的 品种,因此酿酒葡萄的品质等级划分应更注重于其酿造成品的质量。本着着重葡萄酿酒 质量兼顾葡萄四项品质类别的原则,利用黄金分割率,将葡萄酿酒质量类别优势值和葡 萄平衡类别优势值的重要性权重分别定为 0.618 和 0.382,则有 Scorer = 0.382 ∗ Scoreaverage r + 0.618 ∗ Scorequality r 式中,Scorer 表示红种葡萄的综合等级优势值。据上式得到的葡萄综合优势值,需设置 相应的标准划分等级,这里沿用优势因子集合 A = {1, 4, 7, 10} 基于优势因子处理后的数 据特征,计算所得的综合等级优势值应在区间 [1, 10] 内因此以优势因子的值为端点,取 两优势因子间的中值作为延伸性端点,则得到区间 [1.2.5] [2.5, 5.5] [5.5,8.5] 和 [8.5, 10] 以此作为等级划分区间,则有基于优势值的酿酒葡萄等级划分体系如下 5.2.4 模型的结论 将红种葡萄的 27 项样本以此代换上述模型,求解各个类型红种葡萄的品质。所属 等级入下表: 表 8 基于优势值的红种葡萄等级划分情况 红种葡萄样本编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 所属等级 差 良 良 中 中 中 中 中 良 中 中 中 中 中 1 11 表 9 基于优势值的红种葡萄等级划分情况 红种葡萄样本编号 15 16 17 18 19 20 21 22 23 24 251 26 27 所属等级 差 中 良 差 良 良 良 良 优 良 中 中 中 中 1 由于白种葡萄的理化指标与红种葡萄一致,仅存在数值上的差异,因此上述优势矩 阵模型同样适用于求解白种葡萄的品质等级划分问题。将白种葡萄的 28 项样本依次代 换入上述模型,求解得到各类型白种葡萄的品质所属等级如下表所示: 表 10 基于优势值的白种葡萄等级划分情况 红种葡萄样本编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 所属等级 良 良 良 良 良 良 中 中 良 中 中 中 中 良 表 11 基于优势值的白种葡萄等级划分情况 红种葡萄样本编号 15 16 17 18 19 20 21 22 23 24 251 26 27 28 所属等级 良 中 中 良 良 良 良 良 良 良 中 良 良 较以上两表数据可知,红种葡萄跟白种葡萄的等级划分情况均呈现极大部分样本隶 属于良好和中等两个等级,其整体的等级趋势可大致表现为“中间高,两边低”的分布。 结合实际情况考虑,基于酿酒行业的工艺支持,同时受限于环境等拮抗因素,酿酒葡萄 的品质一般均处于中等等级,偏向于良好等级,而只有较小的几率可能出现极优秀的或 显著低劣的品种。因此,可认为以上两表的数据整体分级情况较为理想,能一定程度反 映题目样本葡萄的等级差异。此外,将红种葡萄和白种葡萄两表的数据进行比较分析可 得,红种葡萄有 3 个样本和 1 个样本分别处于较差等级和优秀等级,而白种葡萄的所有 样本均处于良好等级和中等等级,红种葡萄的等级分布较为全面,也更为合理,具有一 定的区分度;相较下白种葡萄的样本品质分布较小,样本之间的区分度也较低。 5 . 4 问题三的模型建立与求解 问题要求根据酿酒葡萄的理化指标 [5] 和葡萄酒的质量对附件中的酿酒葡萄进行分 级。结合题目附件二、三的数据可知,酿酒葡萄理化指标的数量和种类较为繁杂,因此 结合现时的评价体系,选取关键理化指标构建理化指标分级体系;然后基于理化指标的 数据特征进行聚类划分;再结合问题一的求解结果,以等级方式划分酒样的质量数据; 最后综合两者得到酿酒葡萄品质的分级。 1)关联度矩阵的建立在酿酒葡萄和葡萄酒的理化指标的关系研究中,由于两者的 理化指标数目均较多,并且彼此均可能存在一定的相关性,因此首先需计算出两者之间 任意一一对应的理化指标对的关联性,从中筛选关联性高的指标对进行分析。Pearson 相 关系数用于衡量定距变量间的线性关系,其定义式如下 γ = N Px 2 i yi − Pxi P r yi N Px 2 i q N Py 2 i − ( Pyi) 2 式中 γ 表示 Pearson 相关系数;x 和 y 分别对应两组分析对象的数据序列。γ 值的值 域为 [−1,1] 相关系数的绝对值越大,关联度越高,即相关系数越接近于 1 或-1,两者 12 关联度越高,相关系数越接近于 0,两者关联度越低。在此引入 Pearson 相关系数以描述 双方的理化指标的关联性,分别对酿酒葡萄和葡萄酒间的所有 1-1 组合理化指标进行关 联性分析,计算酿酒葡萄和葡萄酒各理化指标的关联度矩阵 D =       γ1−1 ... γ1−j ... γ1−59 ... ... ... ... ... γi−1 ... γi−j ... γi−59 ... ... ... ... ... γ15−1 ... γ15−j ... γ15−59       矩阵中,γi−j 表示葡萄酒中编号为 i 的理化指标与酿酒葡萄中编号为 j 的理化指标的关 联度。其中 i 和 j 依照附件数据中从往右的次序排列编号。特别地,考虑到诸如氨基酸 总量、白藜芦醇等具有多项二级指标的一级理化指标,由于内在生化机理的复杂性,其 分别作为整体与划分单一成分的两种情况下,与另一理化指标间呈现的关联性可能截 然不同,因此在选取酿酒葡萄和葡萄酒的理化指标时均将其一级和二级理化指标分离 作为独立指标,提取指标值进行关联性分析。由于白葡萄酒的理化指标中较红葡萄酒少 花色苷一项理化指标,因此,对于红葡萄有 i = 1, 2, 3..., 15, j = 1, 2, 3, ...59;, 白葡萄有 i = 1, 2, 3..., 15, j = 1, 2, 3, ...59. 5.3.2 模型的求解 利用 SPSS 分析软件处理数据,分别得到红葡萄酒和白葡萄酒与各自的酿酒葡萄间 的理化指标关联性矩阵。(其中带 * 号和带 ** 号的关联度值分别表示在 0.05 和 0.01 水 平上显著性相关)。根据指标关联度的高低,在红葡萄酒指标隶属的关联矩阵中,分别 取葡萄酒中的酒花色苷、酒 L* 两种理化指标,选取与其关联度值最高的三项酿酒葡萄 理化指标;在白葡萄酒指标隶属的关联矩阵中,分别取葡萄酒中的酒单宁、酒总酚两种 理化指标,选取与其关联度值最高的三项酿酒葡萄理化指标,综合展示于下表: 表 12 酿酒红种葡萄理化指标数值图 红种葡萄组 理化指标 苏氨酸 花色苷 褐变度 酒花色苷 0.721* 0.923* 0.767* 理化指标 花色苷 DDPH 自由基 总酚 酒 L* -0.834** -0.707** -0.754** 表 13 酿酒白种葡萄理化指标数值图 白种葡萄组 理化指标 丙氨酸 亮氨酸 赖氨酸 酒单宁 0.756* 0.719* 0.746** 理化指标 谷氨酸 丙氨酸 赖氨酸 酒总酚 -0.652** 0.752** 0.7528** 5.3.3 结果的分析与讨论 分析上表数据可知,对于红葡萄酒的理化指标花色苷,酿酒葡萄中的苏氨酸、花色 苷和褐变度三项理化指标均与其呈极显著的关联性,且三项相关系数值均为正数,表示 13 酒花色苷与三项理化指标均成正向关联。结合实际中葡萄酿酒的生物学过程可知,该三 项指标在酿酒过程中有较大的可能性促进葡萄酒中花色苷的生成。据有关资料【7】可 知,花色苷属是类黄酮,即以黄酮核为基础的一类物质中能呈现红色的一族化合物。因 此在酿酒红葡萄和红葡萄酒中,花色苷可能在一定程度上影响葡萄和酒的色泽,并且基 于其关联性可知,在葡萄酒的酿酒过程中,葡萄的花色苷成分可能得以部分保留至葡萄 酒成品中。对于苏氨酸和褐变度两项指标,苏氨酸可能物质自身的化学特质能够促进花 色苷的生成,或苏氨酸在酿酒过程中参与的反应分解出了能够促进花色苷生成的物质; 褐变度是计量酶促褐变反应的指标,则酿酒过程中酶促褐变反应可能促进了花色苷的生 成。对于红葡萄酒的理化指标酒 L*,苏氨酸、花色苷和褐变度三项理化指标与其相关系 数值均为负数,表示酒 L* 与三项理化指标均成负向关联,表现为葡萄酿酒过程中该三 项指标较有可能对酒 L* 的变化起拮抗作用。根据 Lab 色彩模式【8】,L 表示为亮度,且 数值越小表示越暗,则葡萄酒的酒 L* 指标值表现为其酒色的亮度。对于理化指标花色 苷,由上可知其为能呈现红色的一族化合物,则酿酒过程中花色苷含量越高越有可能导 致成酒的酒色越暗。而苏氨酸和褐变度两项指标,类比于上述分析,可能是由于在酿酒 过程中发生的氧化反应和酶促褐变反应,产生了使葡萄酒的成色变暗的物质。对于白葡 萄酒的理化指标单宁和总酚,与红葡萄酒组的花色苷的数据结果较为相近,与其对应的 理化指标均呈极显著的正向关联。结合以上分析可得对应于葡萄酿酒过程,相应的三种 氨基酸可能发生氧化反应或分解反应,产生了促进单宁和总酚的物质,或者其反应生成 物中就包含单宁和总酚。特别地,上表中单宁和总酚有两项共同的关联性理化指标,即 丙氨酸和赖氨酸,表明了在酿酒过程中,酒的各种化学物质的变化可能受到源自酿酒葡 萄的多种化学物质的共同作用,并且酿酒葡萄的化学物质所发生的化学反应可能影响成 品中多种物质的状态。 5.3.2. 基于逐步回归的理化指标关系估计模型的建立和求解 上述的关联性分析中,针对挑选出的显著关联的理化指标对,进行了机理性的假设 探究和分析。考虑到酿酒过程中各种化学物质是以交错混合的状态对其它物质进行促进 或阻抗影响,仅对单一的理化指标之间进行研究无法取得较好的结果。基于此,结合上 述酿酒过程的变化分析,以葡萄酒的理化指标作为被解释变量序列,酿酒葡萄的理化指 标作为解释变量的序列组,通过建立逐步回归分析模型,以判别系数 2 R 为检验量,以 多项葡萄理化指标对单一葡萄酒理化指标的综合关联程度探究葡萄和葡萄酒理化指标 之间的联系 5.3.2.1. 逐步回归模型的建立 逐步回归算法的基本思想是对全部因子按其对被解释变量影响程度的大小,从大到 小地依次逐个地引入回归方程,并随时对回归方程当时所含的全部变量进行检验,看其 是否仍然显著,如不显著就将其剔除,直到回归方程中所含的所有变量对被解释变量的 作用都显著时,才考虑引入新的变量。再在剩下的未选因子中,选出对被解释变量作用 最大者,检验其显著性,显著则引入方程,不显著则不引入。直到最后再没有显著因子可 以引入,也没有不显著的变量需要剔除为止。针对确定的数据序列 y 和 xn (x = 1, 2, ...n) 逐步回归算法的运行过程如下: 步骤 1 计算变量均值 x1, x2, ..., xn, y 和差平方和 L11,L12, ...Lpp,, Lyy. 其各自的标准化 变量为 uj = x p j − xj Ljj , j = 1, ...p, up+1 = y − y p Lyy 步骤 2 计算 x1, x2, ...xn, 和 y 的相关系数矩阵 R(0) 步骤 3 假设已有 k 个变量被挑选, 14 xi1 , xi2 , · · · , xik , 且 i1, i2, · · · , ik 互不相同。R(0) 经过变换后得 R (k) = r (k) ij 对 j = 1, 2..., k 逐一计算标准化变量 uij 的偏回归平方和 V (k) ij = r (k) i,·(p+1)2 r (k) i,j 记 V () l = maxn Vij o(k) 作 F 检验 则得到对应的回归方程 F = V (k) l r (k) (p+1)(p+1)/(n − k − 1) 对给定的显著性水平 α 拒绝域为 F < F1−α (1, n − k − 1) 步骤 4 循环执行步骤 3, 直至最终选上 t 个变量 xi1 , xi1 , ...xit ,, 且 i1, i2, ...it , 互不相同。 则得到回归方程 R(0) 经过变换后得 R (k) = r (k) ij 则得到对应的回归方程 yb− y p Lyy = r (k) i1,(p+1)p xik xik Likik 通过代数运算最终可得 yb = b0 + bi1 xi1 + ... + bik xik 六、 模型评价与推广 6 . 1 模型评价 (1)构建显著性分析模型时,对数据进行了仔细地处理。从原始数据得到的结果不 断分析,进一步用标准化和置信区间法处理后的数据得到了更精确的结果。体现了思维 的严谨性,也增加了模型的科学性。(2)对于模型得到的结果,进行了大胆的推测,并 能联系全文不同模型所得结果,合理地分析,最后验证推测的可能性。(3)数据处理及 模型求解时充分利用了 EXCEL 以及 MATLAB 等数学软件,较好地解决了问题,得到了 较理想的结果。充分利用了题目附件中的各种信息,并且较好地结合对模型结果进行了 检验。7.2 模型的缺点(1)在回归方法的选择上,虽然采用了逐步回归这一简单高效的 数据挖掘方法,但是忽略了自变量之间的交互作用对因变量产生的影响,从而使回归结 果不够准确。(2)在处理芳香物质数据时,对于不完整数据进行了忽略,可能会导致一 些重要指标的丢失。 15 6 . 2 模型推广 首先,本文所建立的模型与实际情况相符合,具有一定的指导性。同时可针对型进 行更深层次的分析,如在原来的基础上,改变或者增加葡萄和葡萄酒理化指标和芳香物 质,仍可得到其对葡萄酒质量的影响。总体而言,模型具有一定的一般性,便于进一步 推广,不仅可以用于葡萄酒质量评价的探究,同样可以应用于食品质量评价、工业物资 分析等各领域的评价探究。在具体的实施中可根据不同的实际背景对模型进行修改,在 参数的设定上也可以根据实际情况随时变化,如按不同的要求,可根据具体的分析对数 据进行合理的统计处理,根据模型的核心方法,能较为方便地解决问题。 参考文献 [1] 黄鸿基, 钱圳冰, 冯帆等. 基于改进后的 K-means 算法研究根据酿酒葡萄和葡萄酒的 理化指标对红葡萄酒的分级方法 [J]. 中国市场,2017(16):196-197. [2] 赵擎豪, 王升楠, 杜国荣等. 葡萄酒涩感物质及其评价研究进展 [J]. 食品工业科 技,2022,43(08):426-432. [3] [1] 陈海波, 束华琴, 陶盼盼等. 不同有机肥替代化肥对葡萄幼树生长及土壤理化性 状的影响 [J]. 上海农业科技,2022(04):103-105. [4] [1] 田璐, 曹付元, 余丽琴. 一种分类型矩阵数据的初始聚类中心选择算法 [J]. 计算机 工程,2020,46(05):115-121.DOI:10.19678/j.issn.1000-3428.0054536. [5] [1]Salifu R . 肥料和苯并噻二唑(BTH)处理对红葡萄香气特征的影响 [D]. 甘肃农 业大学,2022.DOI:10.27025/d.cnki.ggsnu.2022.000156. [1] 孙薇, 刘成敏, 单守明等. 不同葡萄品种果实品质与葡萄酒香气成分的比较分析 [J]. 南 方农机,2022,53(13):20-25. 16 附 录 附录一 问题一的代码 求均值 A26=[4 4 4 2 2 5 4 3 3 4; 8 8 8 8 6 10 8 4 8 8; 5 5 5 4 5 4 5 3 3 5; 6 4 6 7 7 4 7 4 4 7; 14 10 12 14 14 10 12 10 10 14; 4 4 3 5 3 5 5 3 3 5; 7 6 6 7 6 7 6 4 4 6; 6 5 6 7 6 7 7 5 6 6; 16 16 16 19 13 22 19 10 13 16; 10 10 9 10 9 9 10 7 8 10; ]; A16=[3 4 4 1 2 3 3 3 4 3; 6 4 6 4 6 4 6 4 6 4; 3 4 5 3 4 5 2 4 2 4; 6 4 6 4 4 7 4 6 4 4; 10 10 10 10 10 14 12 12 8 10; 3 5 5 4 4 6 4 5 2 4; 6 4 7 6 6 7 6 6 4 6; 6 6 7 6 6 8 6 6 5 5; 16 13 16 13 16 22 16 16 10 16; 9 9 9 9 9 10 8 9 7 8; ]; A3=[3 3 4 4 2 4 3 2 3 3; 8 8 8 8 6 8 6 2 6 6; 5 4 4 5 5 5 5 2 5 4; 7 7 6 7 7 6 7 2 7 4; 14 14 10 14 14 12 14 8 14 12; 5 4 4 5 4 5 4 3 5 5; 7 4 6 7 6 7 6 2 7 6; 7 5 7 8 6 7 7 4 7 7; 19 16 13 19 19 16 19 13 19 16; 10 9 9 10 10 9 9 7 10 10; ]; A12=[3 4 4 3 2 3 3 3 3 4; 8 8 6 8 6 8 8 4 10 6; 5 4 4 5 5 5 4 2 5 5; 7 7 6 7 7 7 6 2 7 7; 12 12 12 14 12 13 14 8 14 14; 3 5 4 4 4 4 4 2 2 5; 6 6 6 7 4 7 6 2 2 7; 5 6 6 7 6 7 6 4 4 7; 16 19 16 16 13 16 19 10 10 19; 8 10 9 8 8 9 10 7 7 10; ]; A11=[3 4 4 3 3 3 3 2 4 4; 8 8 4 4 4 4 8 6 6 6; 5 4 4 4 4 5 4 4 3 4; 7 7 7 6 4 6 6 4 4 6; 14 14 14 10 10 12 12 10 10 12; 4 4 5 4 4 5 4 4 3 5; 7 7 7 4 4 6 7 4 4 6; 6 6 7 6 6 6 8 5 5 7; 16 19 16 13 13 16 19 13 13 16; 9 10 10 9 8 10 10 9 8 10; ]; A21=[4 3 3 3 3 4 3 3 4 4; 8 8 6 8 6 8 8 4 8 8; 5 4 5 5 5 4 4 3 5 4; 7 7 7 8 7 6 6 2 7 7; 14 12 14 14 14 10 14 10 14 14; 5 5 4 5 5 5 5 3 5 5; 6 7 7 7 7 8 6 6 7 7; 6 6 7 6 7 6 6 6 6 7; 16 19 16 19 19 16 19 13 19 19; 10 9 10 10 10 9 9 8 10 10; ]; A9=[3 4 4 4 3 4 4 3 4 3; 8 8 8 8 6 10 8 4 8 6; 5 4 5 5 5 6 6 4 5 5; 8 7 8 8 7 8 7 4 8 6; 16 12 16 14 14 16 14 12 14 14; 4 5 5 5 6 5 5 3 4 5; 6 7 7 8 7 7 6 2 6 7; 5 6 7 7 7 7 6 5 5 6; 13 16 19 19 19 16 19 10 16 19; 9 9 10 10 10 10 10 7 9 10; ]; A20=[3 4 3 3 3 5 4 3 4 3; 8 8 6 8 6 6 8 8 6 6; 6 4 4 5 5 5 4 3 4 4; 7 4 7 6 7 8 6 4 6 6; 14 12 12 14 16 14 14 10 12 12; 5 5 4 4 5 5 4 3 4 5; 7 6 7 7 7 7 6 4 6 7; 7 6 7 7 7 6 7 5 6 6; 19 16 16 16 19 16 16 13 16 16; 10 9 9 8 10 9 9 8 9 10; ]; A25=[3 4 4 4 3 4 3 2 4 3; 8 8 8 8 6 8 8 4 8 6; 5 4 5 4 5 6 5 3 5 5; 7 6 7 7 7 8 7 4 7 7; 14 12 12 12 14 14 14 8 14 14; 4 5 5 5 5 5 4 3 5 5; 6 6 7 7 7 7 6 2 7 7; 7 6 6 7 7 7 7 5 6 7; 16 16 16 22 19 19 19 13 19 19; 9 9 9 10 10 10 10 8 10 11; ]; A4=[4 4 3 4 3 4 3 2 4 3; 8 8 6 8 6 6 8 6 8 6; 5 5 4 5 5 5 5 3 5 3; 7 7 6 6 4 6 6 4 6 4; 14 12 12 12 12 12 14 10 12 10; 5 5 4 5 4 5 5 4 5 5; 7 6 7 7 4 7 7 6 6 6; 6 6 7 7 6 8 7 6 6 7; 19 16 16 19 16 19 19 16 16 19; 9 9 9 10 9 10 10 9 9 9; ]; A10=[3 4 4 3 3 4 3 2 4 3; 6 8 6 4 4 6 8 4 4 8; 6 4 5 5 5 6 5 4 4 5; 8 7 7 8 7 8 7 6 7 7; 14 12 12 16 14 16 14 10 12 14; 5 4 5 5 5 4 4 4 5 6; 8 7 7 8 7 7 6 4 6 7; 7 6 6 5 7 7 8 6 6 7; 19 16 16 19 19 19 19 13 16 22; 10 9 9 9 10 10 10 8 9 11; ]; A2=[3 4 4 4 3 4 3 3 4 3 8 8 8 8 6 8 8 6 8 6 5 4 4 6 5 3 5 3 4 4 7 7 7 7 7 4 7 6 6 4 14 12 12 14 14 12 12 10 12 10 5 4 5 5 5 5 5 3 5 5 6 6 6 6 6 7 6 2 6 6 6 6 6 6 6 7 6 5 6 6 16 16 16 19 16 19 19 13 16 16 9 9 9 10 9 10 9 8 9 10 ]; A14=[4 4 4 4 3 4 3 3 4 3; 8 8 6 8 6 6 8 4 6 6; 4 4 5 4 5 5 4 4 5 5; 6 7 6 6 7 7 6 6 7 7; 12 12 12 12 14 12 12 12 12 14; 4 5 5 4 5 5 4 4 5 5; 6 6 7 6 6 7 6 4 7 7; 6 6 6 7 7 7 7 6 6 6; 16 16 16 16 16 19 19 16 16 19; 9 9 9 9 9 10 10 9 10 10; ]; A6=[4 3 3 4 3 5 3 2 4 3; 8 8 4 6 2 6 6 4 6 6; 5 4 5 4 5 4 5 4 5 5; 7 7 7 4 7 6 7 6 6 6; 14 12 12 12 14 12 14 12 14 12; 5 4 4 4 5 5 4 4 5 5; 7 6 7 6 7 7 6 4 6 6; 7 6 7 5 6 7 7 6 6 6; 16 16 16 16 16 16 19 16 16 19; 10 9 9 8 10 9 9 9 9 10; ]; A27=[3 4 4 4 3 5 3 2 4 3; 8 8 8 8 6 10 6 6 8 6; 4 4 5 5 5 5 4 4 5 4; 6 7 8 7 7 7 6 6 7 6; 12 12 14 12 12 12 14 12 14 12; 4 5 5 4 4 5 4 3 4 5; 4 6 7 7 7 7 7 4 6 6; 6 7 7 7 7 7 7 5 6 7; 16 16 16 16 16 16 16 13 16 19; 9 10 10 9 9 9 10 8 9 10; ]; A18=[4 4 4 4 3 4 3 3 4 3; 8 8 6 6 6 6 8 6 6 6; 4 4 4 5 4 6 4 4 4 4; 7 7 7 7 4 6 6 6 6 4; 12 14 12 14 10 12 14 12 12 10; 4 5 5 5 5 6 4 4 5 4; 6 6 8 6 7 8 6 6 6 6; 5 6 8 6 7 8 5 5 6 5; 16 19 19 16 19 19 19 16 16 16; 9 10 9 10 9 9 9 9 9 9; ]; A15=[2 3 4 4 3 4 3 3 4 3; 8 8 6 8 6 6 8 6 6 6; 6 4 6 5 5 6 4 4 5 4; 7 7 8 7 8 8 7 6 7 4; 14 12 16 14 14 14 12 10 12 12; 4 5 5 5 5 5 5 4 5 4; 7 6 7 6 7 6 6 4 6 6; 6 7 7 6 7 8 7 5 6 6; 19 16 19 16 19 16 19 13 16 16; 10 9 10 9 10 10 9 8 9 9; ]; A1=[4 4 4 4 3 4 3 2 4 3; 8 8 6 6 6 6 8 6 6 6; 5 5 5 4 5 5 4 4 5 4; 6 7 7 6 7 7 7 4 6 4; 14 12 12 14 14 12 14 12 12 12; 5 5 5 4 5 6 4 4 5 5; 6 6 7 6 6 8 6 6 17 6 6; 7 6 7 6 7 8 7 6 6 6; 19 16 19 16 16 19 19 16 16 16; 10 9 10 9 10 9 9 9 9 10; ]; A13=[4 4 4 4 3 4 3 2 4 3; 6 8 6 6 6 6 6 4 4 6; 4 4 5 5 5 3 4 3 4 5; 6 7 6 7 7 6 6 4 6 7; 12 12 12 14 14 10 14 10 12 14; 3 5 5 4 5 5 4 4 4 5; 4 6 6 7 6 6 7 4 4 6; 5 7 7 6 7 7 7 6 6 6; 16 16 19 19 16 16 16 16 13 19; 8 9 9 9 9 9 8 9 8 10; ]; A17=[4 4 4 4 3 4 3 2 4 3; 8 8 6 6 6 8 8 6 6 6; 5 4 5 5 5 5 5 4 3 5; 6 4 7 7 7 6 7 6 7 7; 12 12 14 14 14 14 14 12 12 14; 5 4 4 5 5 6 5 4 4 6; 6 6 7 7 6 7 7 6 7 7; 6 5 7 6 7 8 7 6 7 7; 16 13 16 19 16 19 22 19 19 22; 9 9 9 10 10 10 10 10 9 11; ]; A28=[4 4 4 4 3 4 3 3 4 3; 8 8 8 8 6 8 8 6 8 6; 4 4 4 5 5 5 4 4 4 5; 6 7 7 7 7 7 6 7 6 7; 12 12 12 14 14 12 14 14 12 14; 4 5 4 5 5 5 5 4 5 6; 6 7 7 6 6 7 7 6 6 7; 6 6 7 6 7 7 7 5 6 8; 16 19 19 16 16 19 16 13 16 22; 9 10 9 10 9 10 9 9 9 11; ]; A22=[4 4 4 4 3 4 3 2 4 3; 8 8 6 8 6 10 8 6 8 6; 5 5 5 6 5 6 4 4 5 6; 7 7 7 8 8 8 6 6 7 7; 14 12 14 14 14 14 14 12 12 14; 5 5 4 5 4 5 4 4 4 6; 6 4 7 7 4 7 7 4 4 7; 6 6 7 7 6 7 7 6 6 7; 16 16 19 19 16 19 19 13 13 19; 9 9 9 10 9 9 8 9 9 11; ]; A24=[3 4 3 4 3 4 3 2 4 3; 6 8 8 8 6 8 8 6 8 6; 4 4 4 5 4 4 4 3 3 5; 4 7 7 7 7 6 6 4 6 7; 10 12 12 12 12 12 14 10 10 14; 4 4 4 5 5 5 5 4 4 5; 6 7 7 6 6 7 7 6 6 7; 5 6 7 6 7 7 7 5 6 7; 16 19 16 16 19 16 19 16 16 19; 9 9 9 8 10 9 10 9 9 10; ]; A8=[4 4 3 4 3 4 3 2 4 3; 6 8 6 6 6 8 8 6 6 6; 4 5 5 4 5 5 4 4 4 4; 6 6 6 4 6 6 6 6 6 4; 12 12 12 12 12 12 14 12 12 10; 5 5 5 4 4 5 5 4 4 4; 6 6 6 4 6 6 7 4 6 4; 6 6 6 5 6 6 6 6 6 5; 16 16 16 16 16 16 16 13 16 13; 9 10 9 8 9 9 10 9 9 9; ]; A19=[3 4 4 3 3 4 3 2 4 3; 6 8 6 6 6 8 8 4 6 6; 5 5 5 4 6 5 5 4 5 4; 7 4 6 6 6 7 7 6 6 6; 14 12 14 12 12 12 14 12 12 12; 4 5 4 4 5 5 4 3 5 5; 6 6 7 7 7 7 7 4 6 6; 6 6 7 7 7 7 7 6 6 6; 16 16 16 13 19 16 19 16 19 19; 9 9 9 8 10 9 9 9 9 10; ]; A5=[3 4 3 4 3 5 3 2 4 3; 6 8 6 8 6 10 8 6 8 6; 5 5 5 5 5 5 5 5 5 6; 7 7 7 7 7 8 6 7 7 7; 14 12 14 14 14 12 14 12 14 16; 5 4 4 4 4 5 5 4 5 6; 7 7 7 7 6 6 7 6 6 7; 7 7 7 6 6 7 7 6 6 7; 19 16 16 16 16 19 19 16 19 22; 10 9 10 9 10 10 8 9 10 11; ]; A7=[3 4 3 3 3 4 3 3 4 3; 8 8 6 6 6 8 8 4 6 6; 5 5 4 5 4 6 4 4 5 4; 7 7 6 6 6 8 7 4 6 6; 14 12 12 12 12 14 14 10 12 12; 4 5 5 4 4 5 5 3 4 5; 6 7 6 6 6 6 6 6 6 7; 6 6 7 7 6 6 6 6 5 6; 16 16 16 13 13 16 19 13 16 19; 9 9 9 7 9 9 8 8 8 10; ]; A23=[4 4 3 4 3 5 3 2 4 3; 6 8 8 8 6 10 8 6 8 6; 5 5 5 5 5 4 4 4 5 4; 6 7 7 7 7 7 6 6 7 4; 12 12 14 12 12 10 12 12 14 12; 4 5 4 5 4 5 4 4 5 5; 6 7 7 7 6 6 6 7 7 7; 6 6 6 6 6 7 6 7 7 6; 16 16 16 16 16 16 16 16 16 19; 9 10 10 10 9 9 10 9 10 10; ]; meanmatrix = zeros(28, 4); 计算每个矩阵的均值并存储 meanmatrix(1) = mean(A1(:)) ∗ 10; meanmatrix(2) = mean(A2(:)) ∗ 10; meanmatrix(3) = mean(A3(:)) ∗ 10; meanmatrix(4) = mean(A4(:)) ∗ 10; meanmatrix(5) = mean(A5(:))∗10; meanmatrix(6) = mean(A6(:))∗10; meanmatrix(7) = mean(A7(:)) ∗ 10; meanmatrix(8) = mean(A8(:)) ∗ 10; meanmatrix(9) = mean(A9(:)) ∗ 10; meanmatrix(10) = mean(A10(:))∗10; meanmatrix(11) = mean(A11(:))∗10; meanmatrix(12) = mean(A12(:))∗10; meanmatrix(13) = mean(A13(:))∗10; meanmatrix(14) = mean(A14(: ))∗10; meanmatrix(15) = mean(A15(:))∗10; meanmatrix(16) = mean(A16(:))∗10; meanmatrix(17) = mean(A17(:))∗10; meanmatrix(18) = mean(A18(:))∗10; meanmatrix(19) = mean(A19(: ))∗10; meanmatrix(20) = mean(A20(:))∗10; meanmatrix(21) = mean(A21(:))∗10; meanmatrix(22) = mean(A22(:))∗10; meanmatrix(23) = mean(A23(:))∗10; meanmatrix(24) = mean(A24(: ))∗10; meanmatrix(25) = mean(A25(:))∗10; meanmatrix(26) = mean(A26(:))∗10; meanmatrix(27) = mean(A27(:))∗10; meanmatrix(28) = mean(A28(:))∗10; disp(meanmatrix); 盒型图红葡萄酒group1 = [62.780.380.468.673.372.271.572.381.574.270.153.974.67358.774.979.359.978.679.577.177.285.67869.273.873]; group2 = [68.17474.671.272.166.365.36678.268.861.668.368.872.665.769.974.565.472.675.872.271.677.171.568.27271.5]; data = [group1 ′ , group2 ′ ]; [p, tb1, stats] = anova1(data); disp(tb1); 白葡萄酒 group1=[ 82 74.2 79.7 79.4 71 68.4 77.5 71.4 72.9 74.3 72.3 63.3 65.9 72 72.4 74 78.8 73.1 72.2 77.8 76.4 71 75.9 73.3 77.1 81.3 64.8 81.3]; group2=[ 77.9 75.8 75.6 76.9 81.5 75.5 74.2 72.3 80.4 79.8 71.4 72.4 73.9 77.1 78.4 67.3 80.3 76.7 76.4 76.6 79.2 79.4 77.4 76.1 79.5 74.3 77 79.6 ]; data=[group1’,group2’]; [p,tb1,stats]=anova1(data); disp(tb1); 18 正态概率图检验 scores = [62.7 80.3 80.4 68.6 73.3 72.2 71.5 72.3 81.5 74.2 70.1 53.9 74.6 73 58.7 74.9 79.3 59.9 78.6 79.5 77.1 77.2 85.6 78 69.2 73.8 73]; figure(); xlabel(’ 观察 值’); normplot(scores); title(’Normal Probability Plot’); [h, p] = kstest(scores); if h == 0 disp(’ 数据符合正态分布’); else disp(’ 数据不符合正态 分布’); end disp(’p 值:’); disp(p); scores = [ 68.1 74 74.6 71.2 72.1 66.3 65.3 66 78.2 68.8 61.6 68.3 68.8 72.6 65.7 69.9 74.5 65.4 72.6 75.8 72.2 71.6 77.1 71.5 68.2 72 71.5]; figure(); xlabel(’ 观察值’); normplot(scores); title(’Normal Probability Plot’); [h, p] = kstest(scores); if h == 0 disp(’ 数据符合正态分布’); else disp(’ 数据不符合正态 分布’); end disp(’p 值:’); disp(p); scores = [82 74.2 79.7 79.4 71 68.4 77.5 71.4 72.9 74.3 72.3 63.3 65.9 72 72.4 74 78.8 73.1 72.2 77.8 76.4 71 75.9 73.3 77.1 81.3 64.8 81.3]; figure(); xlabel(’ 观察值’); normplot(scores); title(’Normal Probability Plot’); [h, p] = kstest(scores); if h == 0 disp(’ 数据符合正态分布’); else disp(’ 数据不符合正态 分布’); end disp(’p 值:’); disp(p); scores = [77.9 75.8 75.6 76.9 81.5 75.5 74.2 72.3 80.4 79.8 71.4 72.4 73.9 77.1 78.4 67.3 80.3 76.7 76.4 76.6 79.2 79.4 77.4 76.1 79.5 74.3 77 79.6]; figure(); xlabel(’ 观察值’); normplot(scores); title(’Normal Probability Plot’); [h, p] = kstest(scores); if h == 0 disp(’ 数据符合正态分布’); else disp(’ 数据不符合正态 分布’); end disp(’p 值:’); disp(p); 19

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨墨祺

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值