在本次分析中,我使用了随机森林回归,并涉及数据标准化和超参数调优。在这里,我使用随机森林分类器,对好酒和不太好的酒进行二元分类。
首先导入数据包:
importnumpy as npimportpandas as pdimportmatplotlib.pyplot as pltimport seaborn as sns
导入数据:
data = pd.read_csv('winequality-red.csv')
data.head()
data.describe()
注释:
fixed acidity:非挥发性酸
volatile acidity : 挥发性酸
citric acid:柠檬酸
residual sugar :剩余糖分
chlorides:氯化物
free sulfur dioxide :游离二氧化硫
total sulfur dioxide:总二氧化硫
density:密度
pH:pH
sulphates:硫酸盐
alcohol:酒精
quality:质量
所有数据的数值为1599,所以没有缺失值。让我们看看是否有重复值:
extra =data[data.duplicated()]
ext