数据分析案例--红酒数据集分析

最新推荐文章于 2024-04-25 10:46:48 发布

VIP文章 Micaelyu

最新推荐文章于 2024-04-25 10:46:48 发布

阅读量2.3w

点赞数 53

文章标签：数据分析可视化 python

本文链接：https://blog.csdn.net/Micaelyu/article/details/104834211

版权

介绍：
这篇文章主分析了红酒的通用数据集，这个数据集一共有1600个样本，11个红酒的理化性质，以及红酒的品质（评分从0到10）。这里主要用python进行分析，主要内容分为：单变量，双变量，和多变量分析。
注意：我们在分析数据之前，一定要先了解数据。
1.导入python中相关的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
# 颜色
color = sns.color_palette()
# 数据print精度
pd.set_option('precision',3)

2.读取数据
注意：读取数据之前应该先看一下数据文件的格式，再进行读取
在这里插入图片描述我们看到这个数据使用‘;’进行分隔的，所以我们用‘;’进行分隔读取
pandas.read_csv(filepath, sep=’, ’ ,header=‘infer’, names=None)
filepath:文本文件路径；sep:分隔符；header默认使用第一行作为列名，如果header=None则pandas为其分配默认的列名；也可使用names传入列表指定列名

data=pd.read_csv(r'H:\阿里云\红酒数据集分析\winequality-red.csv',sep=';')
data.head()

先读取数据的前五行
在这里插入图片描述
然后我们也可以把这个整理好的数据，再另存为csv文件或者excel文件

data.to_csv(r'H:\阿里云\红酒数据集分析\winequality-red2.csv')
data.to_excel(r'H:\阿里云\红酒数据集分析\winequality-red3.xlsx')

winequality-red2.csv如图：
在这里插入图片描述 winequality-red3.xlsx如图：
这样呢，我们就保存好了文件。这也是整理文件的一种方式
3.查看数据集的数据类型和空值情况等

可以看出没有缺失值，数据整齐
4.单变量分析
#简单的数据统计

data.describe()

在这里插入图片描述
5.绘图

# 获取所有的自带样式
plt.style.available
# 使用自带的样式进行美化
plt.style.use('ggplot')
#获取所有列索引，并且转化成列表格式
colnm = data.columns.tolist()
fig = plt.figure(figsize = (10, 6))

for i in range(12):
    #绘制成2行6列的图
    plt.subplot(2,6,i+1)
    #绘制箱型图
    #Y轴标题
    sns.boxplot(data[colnm[i]], orient="v", width = 0.5, color = color[0])
    plt.ylabel(colnm[i],fontsize = 12)
#plt.subplots_adjust(left=0.2, wspace=0.8, top=0.9)

plt.tight_layout()
print('\nFigure 1: Univariate Boxplots')

在这里插入图片描述

colnm = data.columns.tolist()
plt.figure(figsize = (10, 8))

for i in range(12):
    plt.subplot(4,3,i+1)
    #data.hist绘制直方图
    data[colnm[i]].hist(bins = 100, color = color[0])
    plt.xlabel(colnm[i],fontsize = 12)
    plt.ylabel('Frequency')
plt.tight_layout(

最低0.47元/天解锁文章

Micaelyu

关注

53
点赞
踩
491

收藏

觉得还不错? 一键收藏
0
评论
数据分析案例--红酒数据集分析

介绍：这篇文章主分析了红酒的通用数据集，这个数据集一共有1600个样本，11个红酒的理化性质，以及红酒的品质（评分从0到10）。这里主要用python进行分析，主要内容分为：单变量，双变量，和多变量分析。注意：我们在分析数据之前，一定要先了解数据。1.导入python中相关的库import numpy as npimport pandas as pdimport matplotlib....
复制链接

扫一扫