uci数据集_有关葡萄酒质量的数据分析

f522ca961de6b2d661b9e107a243894c.png

将会使用NumPy 、 Pandas 以及 Matplotlib 做具体分析。

一、数据来源

来自 UCI 机器学习实验室的葡萄酒质量数据集:

Wine Quality Data Set​archive.ics.uci.edu

数据集是关于红葡萄酒样品的物理化学性质和质量等级。

二、数据集介绍

有两个数据集,提供了有关葡萄牙“青酒”的红葡萄酒和白葡萄酒变体的样本信息。每种样本都由专家做了质量评级,并进行了理化指标检验。包含以下12个字段:

  1. fixed acidity 固定酸度
  2. volatile acidity 挥发性酸度
  3. citric acid 柠檬酸
  4. residual sugar 残糖
  5. chlorides 氯化物
  6. free sulfur dioxide 游离二氧化硫
  7. total sulfur dioxide 总二氧化硫
  8. density 密度
  9. pH pH值
  10. sulphates 硫酸盐
  11. alcohol 酒精度
  12. quality 质量 - 0 到 10 之间的得分(葡萄酒专家至少 3 次评估的中值)

三、提出问题

  1. 哪些化学特性在预测葡萄酒质量方面最为重要?
  2. 是否特定类型的葡萄酒(红葡萄酒或白葡萄酒)的品质更高?
  3. 酒精含量更高的葡萄酒是否获得的评价更高?
  4. 味道更甜(残糖更多)的葡萄酒是否获得的评价更高?
  5. 什么水平的酸度(pH 值)代表质量更高?

对应以下分析思路:

  1. 查看各化学特性质量评分的相关性,找出那些化学特性会对葡萄酒质量有较大影响;
  2. 使用红葡萄酒和白葡萄酒的总体得分来比较得出结论;
  3. 观察酒精度质量评分的关系;
  4. 观察残糖量质量评分的关系;
  5. 质量评分高的时候,pH值集中在哪个区间。

四、探索数据

62c488452e2006b3ffcddf43602f1009.png

红葡萄酒的样本共有1599个。

b364ee6c3b305f503dabaaff751232ef.png

白葡萄酒的样本共有4898个。

每个数据集中有12列。

12ca9aea938fe5010cf896b4f5f6cb39.png

  • 3
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值