一,数据准备
导入所用module:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
导入数据
data = pd.DataFrame(pd.read_csv('winequality-red.csv',sep=';'))
预览数据
data.info()
data.describe()
data.head()
数据包括红酒的:fixed acidity:非挥发性酸
volatile acidity : 挥发性酸
citric acid:柠檬酸
residual sugar :剩余糖分
chlorides:氯化物
free sulfur dioxide :游离二氧化硫
total sulfur dioxide:总二氧化硫
density:密度
pH:pH
sulphates:硫酸盐
alcohol:酒精
quality:质量
通过预览数据我们知道红酒各个性质的数据类型,且无空值,意味着我们不必进行空值处理。得到了数据的简单的描述性统计,让我们对数据有了一个大体上的印象。
此次我们分析的目的是找出与红酒质量相关性最大的因素,即红酒的那些性质最有可能最终影响红酒的质量评估。
接下来我们先用图表观察数据,看看能不能得出些初级的结论及数据是否适合进一步分析