UCI数据集数据的分析 ——葡萄酒数据

最新推荐文章于 2025-04-10 20:15:19 发布

X_dmword

最新推荐文章于 2025-04-10 20:15:19 发布

阅读量4.1w

点赞数 22

分类专栏：数据分析文章标签： UCI数据集酒的质量物理化学性质

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/X_dmword/article/details/80377213

版权

1、前言

葡萄酒是一种成分复杂的酒精饮料，不同产地、年份和品种的葡萄酒成分不同，这也是导致质量差异过大的重要因素。至今，质量评价主要还是依靠专家的感官。味道是最难理解的一种感官，因此用味蕾评价葡萄酒也就成为一件艰巨的任务。为了评估葡萄酒的质量，我们提出的方法就是根据酒的物理化学性质与质量的关系，找出高品质的葡萄酒具体与什么性质密切相关，这些性质又是如何影响葡萄酒的质量。

2、数据准备

数据集链接

数据集包括1599个红葡萄酒样本以及4898个白葡萄酒样本，每个样本含有12个变量：固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精，葡萄酒的质量（基于感觉）。

3、数据预处理

为了提高数据的质量，可以对离群点和极端值进行丢弃修正，我们指定3个标准差以外的数据为离群点，5个标准差以外的为极端值。经过处理后，红葡萄酒数据可以剔除100多个样本，白葡萄酒可以剔除400多个样本。

4、变量相关性

以前11个变量作为输入变量，质量作为输出变量，下面探讨酒的质量好坏主要与哪些输入变量有关，下面我们通过计算质量与固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精的简单相关系数来反映变量间的相关性。

红葡萄酒数据的计算结果：

最低0.47元/天解锁文章

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。