![f522ca961de6b2d661b9e107a243894c.png](https://i-blog.csdnimg.cn/blog_migrate/c9ca69261e969f042a5a75b846fe323f.jpeg)
将会使用NumPy 、 Pandas 以及 Matplotlib 做具体分析。
一、数据来源
来自 UCI 机器学习实验室的葡萄酒质量数据集:
Wine Quality Data Setarchive.ics.uci.edu数据集是关于红葡萄酒样品的物理化学性质和质量等级。
二、数据集介绍
有两个数据集,提供了有关葡萄牙“青酒”的红葡萄酒和白葡萄酒变体的样本信息。每种样本都由专家做了质量评级,并进行了理化指标检验。包含以下12个字段:
- fixed acidity 固定酸度
- volatile acidity 挥发性酸度
- citric acid 柠檬酸
- residual sugar 残糖
- chlorides 氯化物
- free sulfur dioxide 游离二氧化硫
- total sulfur dioxide 总二氧化硫
- density 密度
- pH pH值
- sulphates 硫酸盐
- alcohol 酒精度
- quality 质量 - 0 到 10 之间的得分(葡萄酒专家至少 3 次评估的中值)
三、提出问题
- 哪些化学特性在预测葡萄酒质量方面最为重要?
- 是否特定类型的葡萄酒(红葡萄酒或白葡萄酒)的品质更高?
- 酒精含量更高的葡萄酒是否获得的评价更高?
- 味道更甜(残糖更多)的葡萄酒是否获得的评价更高?
- 什么水平的酸度(pH 值)代表质量更高?
对应以下分析思路:
- 查看各化学特性与质量评分的相关性,找出那些化学特性会对葡萄酒质量有较大影响;
- 使用红葡萄酒和白葡萄酒的总体得分来比较得出结论;
- 观察酒精度和质量评分的关系;
- 观察残糖量与质量评分的关系;
- 质量评分高的时候,pH值集中在哪个区间。
四、探索数据
![62c488452e2006b3ffcddf43602f1009.png](https://i-blog.csdnimg.cn/blog_migrate/a4a95a925e5d55aee96a75f046736a8b.jpeg)
红葡萄酒的样本共有1599个。
![b364ee6c3b305f503dabaaff751232ef.png](https://i-blog.csdnimg.cn/blog_migrate/c7eed61a5115e8250e52fdcd0768bcee.jpeg)
白葡萄酒的样本共有4898个。
每个数据集中有12列。
![12ca9aea938fe5010cf896b4f5f6cb39.png](https://i-blog.csdnimg.cn/blog_migrate/5b4b862c0e40851bad1b994f85649850.jpeg)