#加载数据
df = pd.read_csv("winequality-red.csv")
df.head()
#空值
df.isnull().any()
df.describe()# 简单的数据统计
# 总酸度,把固定酸,挥发酸,柠檬酸三项合起来定义一个新的特征总酸量。
df['total acid'] = df['fixed acidity'] + df['volatile acidity'] + df['citric acid']
探索性分析
#固定酸占总酸比重
plt.figure(figsize = (8,5))
plt.suptitle('固定酸占总酸比分布情况', y=1.02, fontsize = 16) #总标题
temp = df[{
'total acid','fixed acidity'}]
temp['precent'] = temp.apply(lambda x: x['fixed acidity']/x['total acid'], axis=1) #计算占比
temp['precent'].hist(bins = 100)
plt.xlabel('红葡萄酒固定酸占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)
#固定酸占比对评分影响
plt.figure(figsize = (8,4))
plt.suptitle('固定酸占总酸比对评分的影响', y=1.02, fontsize =