文章目录
1. 明确需求和目的
以葡萄酒类型为标签,分为白葡萄酒和红葡萄酒。比较这两种葡萄酒的差别并选取葡萄酒的化学成分:固定酸度、挥发性酸度、柠檬酸、氯化物、游离二氧化硫、总硫度、密度、PH值、硫酸盐、酒精度数共11个,针对酒的各类化学成分建立线性回归模型,从而预测该葡萄酒的质量评分。
2. 数据收集
- 数据集为“winequality-both.csv",共有6497条数据,共13个特征.
- 数据链接:https://pan.baidu.com/s/1dXeIT20OWgtGvJgSZEqRFQ
提取码:0g7m
3. 数据预处理
3.1 数据整合
3.1.1 加载相关库和数据集
- 使用的库有:pandas、numpy、matplotlib、seaborn、statsmodels
- 使用的数据集:winequality-both.csv
3.1.2 数据概览
从上图可以看出特征和质量评分的均值和方差,分位数等,其中,质量评分的均值为5.818378。
3.2 数据清洗
3.2.1 列名重命名
从上面发现列名不符合Python的命名规