在本次分析中,我使用了随机森林回归,并涉及数据标准化和超参数调优。在这里,我使用随机森林分类器,对好酒和不太好的酒进行二元分类。
首先导入数据包:
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
导入数据:
data = pd.read_csv('winequality-red.csv') data.head()
data.describe()
注释:
fixed acidity:非挥发性酸
volatile acidity : 挥发性酸
citric acid:柠檬酸
residual sugar :剩余糖分
chlorides:氯化物
free sulfur dioxide :游离二氧化硫
total sulfur dioxide:总二氧化硫
density:密度
pH:pH
sulphates:硫酸盐
alcohol:酒精
quality:质量
所有数据的数值为1599,所以没有缺失值。让我们看看是否有重复值:
extra = data[data.duplicated()]
extra.shape
有240个重复值,但先不删除它,因为葡萄酒的质量等级是由不同的品酒师给出的。
数据可视化
sns.set() data.hist(figsize=(10,10), color='red') plt.show()
只有质量是离散型变量,主要集中在5和6中,下面分析下变量的相关性:
colormap =