1、前言
葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不同,这也是导致质量差异过大的重要因素。至今,质量评价主要还是依靠专家的感官。味道是最难理解的一种感官,因此用味蕾评价葡萄酒也就成为一件艰巨的任务。为了评估葡萄酒的质量,我们提出的方法就是根据酒的物理化学性质与质量的关系,找出高品质的葡萄酒具体与什么性质密切相关,这些性质又是如何影响葡萄酒的质量。
2、数据准备
数据集包括1599个红葡萄酒样本以及4898个白葡萄酒样本,每个样本含有12个变量:固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精,葡萄酒的质量(基于感觉)。
3、数据预处理
为了提高数据的质量,可以对离群点和极端值进行丢弃修正,我们指定3个标准差以外的数据为离群点,5个标准差以外的为极端值。经过处理后,红葡萄酒数据可以剔除100多个样本,白葡萄酒可以剔除400多个样本。
4、变量相关性
以前11个变量作为输入变量,质量作为输出变量,下面探讨酒的质量好坏主要与哪些输入变量有关,下面我们通过计算质量与固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精的简单相关系数来反映变量间的相关性。
红葡萄酒数据的计算结果: