突然急匆匆的一通电话打乱了深夜的寂静,乍一看还是学妹的电话,她居然让我帮她写作业!? 然后告诉我她的数据分析作业要截至了,让我帮帮她,面对
可爱弱小
的学妹,我果断答应了,然后我一晚上对学妹悉心教导,终于把它完成了。这也算是一次数据分析实例,一大早我整理了一下,去除闲杂的对话,把关键的部分写成博客,以下是这次实例的数据分析过程!
给学妹上一课
学妹的要求:
电话结束后,学妹发了二个csv文件给我,要求是通过数据表格中得出结论,探究到底什么会影响葡萄酒的质量分数?
Ps: csv文件打开的外观类似Excel,但文件中都是最原始的数据,非常适合用python来处理!
我的回答:
先抵制了一波学妹的糖衣炮弹之后,然后打开这个数据集,妈耶,这标题全是英文术语,爱了爱了,好在我有翻译,大致的阅读了一下,感觉不是很难,于是对学妹说包在我身上,你先去洗澡吧!
我的做法:
分析之前:
我们在做这个数据分析的时候一定得把自己安静下来,这样才有利我们发掘数据,一般我也喜欢听听歌来调节情绪,这个方法你们也可以参考参考哦!
对于所有的数据分析其实都有一套完美的公式的,如下:
无非就是五大模块,最多就是数据处理的时候可能会麻烦一点,但是我们一点也不慌,都在学妹面前夸下海口,作死也要完成! 那如果有不理解数据分析的,可以看看我这篇博客 ---->什么是数据分析 ,那这次作业,我也是用这几个办法给学妹上了一课,我把步骤在罗列下
- 提出问题
- 整理数据
- 探索数据
- 得出结论
- 传达意义
那下面我们就开始给学妹上一课吧
需要的库:
- numpy
- pandas
- matplotlib
安装方式可以使用pip安装,但是如果超时的话,用下国内镜像的会比较好点,上面分享的博客里面也有详细的安装教程
打开数据
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
df_red = pd.read_csv(r'winequality-red.csv', sep=';')
df_red.head()
df_white = pd.read_csv(r'winequality-white.csv', sep=';')
df_white.head()
在我翻译这个列名的时候我突然发现一个错误 他们的total_sulfur_dioxide
居然不一样,就是一个-一个_好在我英语差,不然还发现不了呢,下面给出翻译!
理化性质 | 字段名称 |
---|---|
固定酸度 | fixed acidity |
挥发性酸度 | volatile acidity |
柠檬酸 | citric acid |
残糖 | residual sugar |
氯化物 | chlorides |
游离二氧化硫 | free sulfur dioxide |
总二氧化硫 | total sulfur dioxide |
密度 | density |
pH 值 | pH |
硫酸盐 | sulphates |
酒精度 | alcohol |
质量分数 | quality |
提出问题:
面对酒,我提出了质问,作为理性的分析,我觉得一般是酒精的浓度或者酸度 这二个会影响酒的口感和品质吧,那我们就对这二个问题针对性做出分析,看看那种可能性最大,但是我们得先整理一下数据,方便接下来的操作!