学妹的数据分析作业,深夜对酒的质问!

突然急匆匆的一通电话打乱了深夜的寂静,乍一看还是学妹的电话,她居然让我帮她写作业!? 然后告诉我她的数据分析作业要截至了,让我帮帮她,面对可爱弱小的学妹,我果断答应了,然后我一晚上对学妹悉心教导,终于把它完成了。这也算是一次数据分析实例,一大早我整理了一下,去除闲杂的对话,把关键的部分写成博客,以下是这次实例的数据分析过程!

学妹的要求:

电话结束后,学妹发了二个csv文件给我,要求是通过数据表格中得出结论,探究到底什么会影响葡萄酒的质量分数?
Ps: csv文件打开的外观类似Excel,但文件中都是最原始的数据,非常适合用python来处理!

我的回答:

先抵制了一波学妹的糖衣炮弹之后,然后打开这个数据集,妈耶,这标题全是英文术语,爱了爱了,好在我有翻译,大致的阅读了一下,感觉不是很难,于是对学妹说包在我身上,你先去洗澡吧!
在这里插入图片描述

我的做法:

分析之前:
我们在做这个数据分析的时候一定得把自己安静下来,这样才有利我们发掘数据,一般我也喜欢听听歌来调节情绪,这个方法你们也可以参考参考哦!


对于所有的数据分析其实都有一套完美的公式的,如下:
在这里插入图片描述
无非就是五大模块,最多就是数据处理的时候可能会麻烦一点,但是我们一点也不慌,都在学妹面前夸下海口,作死也要完成! 那如果有不理解数据分析的,可以看看我这篇博客 ---->什么是数据分析 ,那这次作业,我也是用这几个办法给学妹上了一课,我把步骤在罗列下

  • 提出问题
  • 整理数据
  • 探索数据
  • 得出结论
  • 传达意义

那下面我们就开始给学妹上一课吧

需要的库:

  • numpy
  • pandas
  • matplotlib

安装方式可以使用pip安装,但是如果超时的话,用下国内镜像的会比较好点,上面分享的博客里面也有详细的安装教程

打开数据

import pandas as pd
import numpy as np
from  matplotlib import pyplot as plt

df_red = pd.read_csv(r'winequality-red.csv', sep=';')
df_red.head()

在这里插入图片描述

df_white = pd.read_csv(r'winequality-white.csv', sep=';')
df_white.head()

在这里插入图片描述
在我翻译这个列名的时候我突然发现一个错误 他们的total_sulfur_dioxide居然不一样,就是一个-一个_好在我英语差,不然还发现不了呢,下面给出翻译!

理化性质 字段名称
固定酸度 fixed acidity
挥发性酸度 volatile acidity
柠檬酸 citric acid
残糖 residual sugar
氯化物 chlorides
游离二氧化硫 free sulfur dioxide
总二氧化硫 total sulfur dioxide
密度 density
pH 值 pH
硫酸盐 sulphates
酒精度 alcohol
质量分数 quality

提出问题:

面对酒,我提出了质问,作为理性的分析,我觉得一般是酒精的浓度或者酸度 这二个会影响酒的口感和品质吧,那我们就对这二个问题针对性做出分析,看看那种可能性最大,但是我们得先整理一下数据,方便接下来的操作!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值