备战2024数学建模国赛(模型三十三):逐步回归 优秀案例(一)葡萄酒的评价

 专栏内容(赛前预售价99,比赛期间299): 2024数学建模国赛期间会发布思路、代码和优秀论文。(本专栏达不到国一的水平,适用于有一点点基础冲击省奖的同学,近两年有二十几个国二,但是达不到国一,普遍获得省奖,请勿盲目订阅)

python全套教程(一百篇博客):从新手到掌握使用python,可以对数学建模问题进行建模分析。

35套模型算法(优秀论文示例):马尔科夫模型、遗传算法、逻辑回归、逐步回归、蚁群算法、蒙特卡洛模拟、聚类模型、线性规划、粒子群算法、神经网络、相关系数、灰色预测、灰色关联分析、模糊综合评价、模拟退火、时间序列ARMA、方差分析支持向量机、插值、排队论、拟合模型、微分方程、层次分析法、小波分析、多元回归、图论floyd算法、图论Dijkstra模型、因子分析、动态规划、博弈论、决策树、典型相关分析、元胞自动机、主成分分析、TOPSIS法。

目录

摘 要

一、问题重述

二、问题分析

三、模型假设

四、符号说明

五、模型建立与求解

六、模型的评价、改进与推广

七、参考文献

八、附录


摘 要


        本文运用多种相关分析、综合评价和线性回归等方法解决了葡萄酒质量的评价问题。
        对于问题一,首先通过单样本 K-S 检验等方法确定了各葡萄酒样本评分数据的概率分布,从而确定了显著性差异模型的建立,接着考虑两组评分数据的配对关系约束,引入 Wilcoxon 符号秩检验法来进行显著性差异的假设检验。结果显示对于红、白葡萄酒,两个品酒组的评价结果均存在显著性差异。最后利用秩相关分析,引入肯德尔和谐系数法评定评酒组的评分信度,评价结果显示对于红葡萄酒,第一组品酒员的品尝得分更为可信,而对于白葡萄酒则是第二组品酒员在可信度方面占优。
        问题二,运用主成分分析法进行指标遴选,构建酿酒葡萄质量的综合评价指标体系,并利用该指标体系建立基于综合评价的酿酒葡萄分级模型,对酿酒葡萄进行分级。结果发现样本葡萄大多集中在二、三级,红葡萄样本中样本 23 质量最优,为特级葡萄;样本 12 质量相对欠缺,属六级葡萄。
        问题三中,采用研究两组变量之间相关关系的多元统计方法——典型相关分析,识别并量化两组变量——酿酒葡萄与葡萄酒的理化指标——之间的关系。分析结果如下:第一,增大酿酒葡萄果皮的含量对葡萄酒中 DPPH 半抑制体积含量的增加有重要影响;第二,酿酒葡萄中的苹果酸不仅能促发酵,还能给对红葡萄酒起主要呈色作用的花色苷和对花色苷起中等辅色作用的单宁物质起保护作用,使得红葡萄酒呈色亮丽;第三,在葡萄总黄酮消除自由基的抗氧化作用和总酚保护清除自由基的共同作用下,酿酒葡萄中的 DPPH 自由基转化为葡萄酒中的 DPPH 半抑制体积。
        对于问题四,首先在问题三分析酿酒葡萄与葡萄酒的理化指标间联系的基础上,在保留葡萄酒指标的前提下,剔除酿酒葡萄指标中某些认为可以被用于表示对应葡萄酒指标的部分。接着,利用筛选后的指标建立多元线性回归模型,探究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。经检验样本组的线性回归模型评价值与评分值的显著性差异检验,用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是可行的。
        本文综合秩相关分析评价、基于层次分析法的综合评价、典型相关分析、多元线性回归等模型,结合 MATLAB、SPSS、SAS 和 EXCEL 等软件,对葡萄酒质量的评价问题进行了多角度的分析,并给出了利用理化指标评价葡萄酒质量的模型。在文章的最后对模型的适用范围做出了推广,在实际应用中有较大的参考价值。


        关键词:秩相关 主成分分析 层次分析综合评价 典型相关分析 多元线性回归

一、问题重述


        确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结果,附件 2 和附件 3 分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
        1. 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
        2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
        3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
        4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?


二、问题分析


2.1 问题一的分析
        问题一要求比较两组评价结果的是否存在差异,并建立合理的评价模型以判断两组结果在可信程度方面的优劣。首先,我们从问题分析可以得出品酒员对葡萄酒样本的品尝评分是属于感官评价,具有较大的主观性。因此,我们先从问题所给的数据入手,分析四组品酒结果中对不同样本打分分布。依靠葡萄酒样本评分的概率分布,建立显著性差异模型。由于品酒员间存在评价尺度、评价位置和评价方向等方面的差异,不同组别的品酒员对同一酒样的评价结果存在着差异。此时不适用参数检验的方法,而只能用非参数统计方法来处理。
        对主观评分结果合理性的评价,仅仅局限于评分之间表面的数值关系是不够的。因此,考虑采取秩相关分析法建立评价模型,将评分结果的具体数值部分予以丢弃,只保留各评分秩大小关系的信息,以给出数据中最稳固、最一般的关系,度量整体评分结果在可信度方面的优劣。
2.2 问题二的分析
        酿酒葡萄,是指以酿造葡萄酒为主要生产目的的葡萄品种[1]。问题二要求分析确定合理的评价指标体系,并运用该评价指标体系对酿酒葡萄进行分级。显而易见,该问题要求我们建立一个评价模型。
        评价体系主要包含两方面指标:
        第一个方面是葡萄酒的质量。这包括外观、香气、口感、整体四方面的评分。外观包括澄清度和色调,香气包括纯正度、浓度和质量,口感则通过纯正度、浓度、持久性和质量体现。
        第二个方面酿酒葡萄自身的理化指标。如附加二中的葡萄总黄酮、总酚、单宁、果皮质量等 27 个指标。对于这 27 个酿酒葡萄自身的理化指标,根据多个样本得到的数据分析出其内在的关系,将相关性显著的指标合并,则可以使得计算简单。那么由以上的分析可以构建综合评价指标体系,建立模型进行多指标综合评价.基于综合评价的结果,即可对酿酒葡萄进行分级。
2.3 问题三的分析
        问题三中,题目要求分析酿酒葡萄与葡萄酒的理化指标之间的联系。酿酒葡萄和葡萄酒分别存在多个理化指标,若采用简单相关分析的方法,只是孤立考虑了单个X 与单个Y 间的相关,而没有考虑X 、Y 变量组内部各变量间的相关。酿酒葡萄经发酵酿成葡萄酒的化学过程,使得两组变量间有许多简单相关系数,使问题显得复杂,难以从整体
        描述。因此,考虑采用研究两组变量之间相关关系的多元统计方法——典型相关分析,识别并量化酿酒葡萄与葡萄酒的理化指标两组变量之间的关系,考虑两组变量的线性组合,并研究它们之间的相关系数 ,p u v 。
2.4 问题四的分析
        问题四中,需要我们通过酿酒葡萄和葡萄酒的理化指标,得到对葡萄酒的质量的评价,并论证是否可行。因此,首先考虑在问题三的基础上,针对酿酒葡萄与葡萄酒理化指标之间的联系和它们与葡萄酒质量之间的相关性进行指标的筛选。随后,期望建立一个线性回归模型,通过该模型来得到对葡萄酒质量的评价。由于要论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,初步认为在建立线性回归模型时对样本进行随机遴选,选中的样本作为示例样本组建立线性回归方程,未选中的样本作为检验样本组对模型的可行性进行验证。

三、模型假设


1. 假设各样本能真实客观地反映酿酒葡萄与葡萄酒的情况;
2. 葡萄酒的质量只与酿酒葡萄的好坏有关,忽略酿造过程中的温度、湿度、人为干扰等其他因素的影响;
3. 不考虑理化性质的二级指标;
4. 每组评酒员的打分不受上个酒样品的影响,即各评分数据间独立;

四、符号说明

五、模型建立与求解


5.1 问题一的模型建立与求解
问题一要求分析两组评酒员的评价结果有无显著性差异,并判断两组结果在可信程度方面的优劣。我们认为由以下三个步骤组成:
步骤一:葡萄酒样本评分概率分布的确定,其目的是确定显著性差异模型的类型;
步骤二:两组评酒员评价结果的显著性差异模型的建立,主要通过 Wilcoxon 符号秩检验法进行显著性差异的假设检验;
步骤三:建立秩相关分析评价模型,并通过该模型判断两组品酒员评价结果在可信度方面的优劣。
5.1.1 数据的预处理
经过对数据的查找,我们发现部分原始数据存在异常,另外有些类型数据存在缺失,在此我们将其正常化处理。
(1)缺失数据的处理
对于数据中存在的缺失现象,本文采用均值替换法对这种缺失数据进行处理。均值替换法就是将该项目剔除异常数据后取整剩余数据的平均值来替换异常或缺失数据的方法,即:

六、模型的评价、改进与推广


对于问题一,首先运用了配对样本 Wilcoxon 符号秩检验法对两组评酒员的评价结
果进行判别是否有显著性差异。由于在此为主观评分类结果的特殊性,类似于体育比赛
中对运动员进行打分。比如高水平比赛中,由于被评价对象的水平比较接近,水平较差
的评分者难以区别不出被评价对象水平的高低,而力求给保稳分。这种评分者的打分的
分值波动小,具有一定的隐蔽性,用极端数据和偏差分析很难判断出来。但是,即使该
某评分者总是力求给出中间分,其评分结果的序次很难与最后得分的序次具有较高的一
致性。因此,采用秩相关分析具有相对的合理性及良好的可推广性。
其次,通过肯德尔和谐系数法分析评价结果的可信度的方法,比计算原始数据的
矩相关系数更能反映评分者评分与最后得分之间的关系。模型的不足之处在于仅考虑了
评分者评分与最后得分的一致性大小关系。若要全面衡量评分者评分的可信性以及合理
性,还必须对评分者评分的相对稳定性作评价。可以考虑进行偏差分析(偏差分析可以
很好地反映个评分者的稳定性好坏),即评分者的评分结果与最后得分之间距离

通过每个评分者的一致性与稳定性建立综合评价模型

对每一项赋予一定的权重值就可以计算出每个评分者的评价得分,这样才能综合的反映
出每个评分者的可信度高低。
对于问题二,本文在建立层次结构时,在常规三个层次的基础上增加了两级准则层,
从而有效地避免了单一层次分析法指标权重值偏离的现象。其次,运用层次分析法建立
比较矩阵运用了主成分分析中的贡献度来赋值,有效地避免了主观感受对两指标间影响

程度进行赋值的人为因素。
对于问题三,能良好的反映出两组变量的指标之间多对多联系的典型相关分析,可
推广性很强。例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要
考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行
额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长
率、物价上涨率等两组变量之间的相关程度。
对于问题四,通过逐步回归分析将指标集中指标筛选剔除,余下能充分反映线性关
系的小部分指标来得到相应结果。显然,逐步回归分析之前的指标集中的指标数越多,
模型的效果会越好。因此,对于模型的改进,考虑加入附件 3 中葡萄和葡萄酒的芳香物
质的指标。


七、参考文献


[1] 百度百科,酿酒葡萄,http://baike.baidu.com/view/2684347.htm,2012年9月10日;
[2] 百度百科,正态分布,http://baike.baidu.com/view/45379.htm,2012年9月9日;
[3] 曾怀恩 黄声享,基于Kriging方法的空间数据插值研究,地球信息科学,10(7),2008;
[4] 陈平 魏鹏超,两配对样本非参数检验在公司绩效评价中的应用探讨,《财会通讯》,
2010年20期:59-60,2010年;
[5] MBA智库百科,http://wiki.mbalib.com/wiki/%E5%A8%81%E5%B0%94%E7%A7%
91%E5%85%8B%E6%A3%AE%E7%AC%A6%E5%8F%B7%E7%A7%A9%E6%A3%80%
E9%AA%8C,2012年9月9日;
[6] Stone H, Sidel JL, Oliver S et al. Sensory evaluation by quantitative descriptive analysis
[J]. Food Technology, 1974, 28(11)24-34;
[7] Stone H, Sidel JL, Bloomquist J. Quantitative descriptive analysis [J]. Cereal Foods World,
1980, 25; 624-634;
[8] 司林波 黄钦,研究生招生面试评分信度模型分析,《中国高教研究》,2008年第7
期:33-35,2008年;
[9] 姜启源 谢金星 叶俊,数学模型(第三版)北京,高等教育出版社,2006.9.12;
[10] 姜婧 张启平,典型相关分析的交叉效率模型及其在钢铁行业的应用,工业技术经
济,2011年第1期(总第207期):108-113,2011年1月。

八、附录

  • 32
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

2024年华数杯数学建模

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值