通过RF预测红酒质量
从UCI上获取到了一份winequality的数据来作为小练习的数据源 https://archive.ics.uci.edu/ml/datasets/Wine ,想通过红酒的特征来预测红酒的质量。最后通过随机森林和集成学习的方法,将预测的正确率提升到了90%。
数据集信息:
这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。该分析确定了三种葡萄酒中每种葡萄酒中含有的13种成分的数量。 数据集中主要采用11种特征变量,一哥目标变量如下:
数据集中属性列表:
attributes | 属性 |
---|---|
fixed acidity | 非挥发性酸; |
volatile acidity | 挥发性酸度 |
citric acid | 柠檬酸 |
residual sugar | 残余糖分 |
chlorides | 氯化物 |
free sulfur dioxide | 游离二氧化硫 |
total sulfur dioxide | 总二氧化硫 |
density | 密度 |
pH | pH值 |
sulphates | 硫酸盐 |
alcohol | 乙醇 |
quality | 品质 |
属性信息:
所有属性都是连续的
1、首先先进行数据的导入,探索与预处理:
import pandas as pd
import numpy as np
data = pd.read_csv('./winequality-red.csv',sep=';',encoding='ISO-8859-1')
观察到表有问题,实际上这个csv文件通过分号分割,所以导入时需要添加:sep=’;’,即可正常读取数据。
2、处理数据是否分布平衡
data['quality'].value_counts()
显