利用pandas工具包完成2.7本章实训（python数据分析与可视化（第2版））

简单的小呆瓜

已于 2022-04-16 15:29:30 修改

阅读量2.8k

点赞数 2

分类专栏： python 文章标签： python

于 2022-04-07 18:50:01 首次发布

本文链接：https://blog.csdn.net/qq_58768870/article/details/124023618

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

#导入模块
import pandas as pd
import numpy as np

#获取数据
#导入待处理数据white_wine.csv，并显示前5行
data=pd.read_csv("D:\python test\white_wine.csv")
data.head()

#查看白葡萄酒总共分为几种品质等级
qualityList=data['quality'].unique()
print(f"葡萄酒共有{len(qualityList)}种等级，分别为{qualityList}")

#按白葡萄酒等级将数据集划分为7个子集，并统计每种等级的数量
group1=data['quality'].groupby(data['quality'])
group1.size()

#计算每个数据集中fixed acidity的均值
group2=data['fixed acidity'].groupby(data['quality']).mean()
group2

#计算每个数据集中fixed acidity的方差
group3=data['fixed acidity'].groupby(data['quality']).var()
group3

#计算fixed acidity与所属等级的离均差（方法一）
#添加一列值为离均差，酸性减去同一品种等级的酸性均值的绝对值
mean=data.groupby(['quality'])['fixed acidity'].transform('mean')  #求得每一行对应等级的酸性均值
display(mean)
data['deviation from mean']=abs(round(data['fixed acidity']-mean,2))   #保留两位小数
display(data.head(10))
data.to_csv('D:\python test\my_white_wine.csv')

【abs( ) 函数——取绝对值函数——abs(表达式)

round()函数——按指定的位数对数值进行四舍五入——round(数值表达式 , 有效位数)】

#计算fixed acidity与所属等级的离均差（方法二）
mean=data.groupby(['quality'])['fixed acidity'].transform('mean')  #求得每一行对应等级的酸性均值
data['ver']=data['fixed acidity']-mean
display(data)

#利用lambda函数计算离均差（方法三）
data['ver']=data.apply(lambda x:x['fixed acidity']-mean[x['quality']],axis=1)
display(data)

简单的小呆瓜

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
利用pandas工具包完成2.7本章实训（python数据分析与可视化（第2版））

#导入模块import pandas as pdimport numpy as np#获取数据#导入待处理数据white_wine.csv，并显示前5行data=pd.read_csv("D:\python test\white_wine.csv")data.to_csv("D:\python test\my_white_wine.csv")data.head()#查看白葡萄酒总共分为几种品质等级group1=data['quality'].groupby(data['qual.
复制链接

扫一扫