pandas复习（简单数据分析）

最新推荐文章于 2022-11-28 16:25:53 发布

DXdaxian

最新推荐文章于 2022-11-28 16:25:53 发布

阅读量328

点赞数

分类专栏：科学数据包 pandas 文章标签：数据分析

本文链接：https://blog.csdn.net/DXdaxian/article/details/105983968

版权

科学数据包同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

pandas

5 篇文章 0 订阅

订阅专栏

基本统计描述

"""
基本统计描述
"""
import pandas as pd
df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/简单数据分析/1.统计描述/data1.csv',
                 encoding = 'gbk') 


#基本统计数
df.成绩.describe()

#成绩数量
df.成绩.size

#成绩的最大值
df.成绩.max()

#成绩的最小值
df.成绩.min()

#成绩的和
df.成绩.sum()

#成绩的均值
df.成绩.mean()

#成绩的中位数
df.成绩.median()

#成绩的方差
df.成绩.var()

#成绩的标准差
df.成绩.std()

#成绩的累加
df.成绩.cumsum

#最大值和最小值的位置,argmax(),argmin()被弃用
df.成绩.idxmax()
df.成绩.idxmin()

#求百分位数（排序为前30%的值）interpolation = ’nearest‘如果前30%不是整数,取最近的一个数
df.成绩.quantile(0.3,interpolation = 'nearest')

分组函数groupby 和聚合函数agg

"""
分组函数groupby（）
"""
import pandas as pd
import numpy as np

df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/简单数据分析/2.分组统计groupby函数/data1.csv',
                 encoding = 'gbk')

#groupby(by =【作为分组根据的Series，变成新数据框中的index】)【想要计算和分析的Series】.agg({分析计算Series的具体内容，作为columns})
result1 = df.groupby(by = ['班级'])['成绩'].agg({'总分':np.sum,
                                      '人数':np.size,
                                      '平均成绩':np.sum,
                                      '标准差':np.std})


#自定义分组
bins = [min(df.成绩)-1, 70, 80, 90, max(df.成绩)+1]
labels = ['70分以下','71分-80分','81分-90分','91以上']
df['成绩分组'] = pd.cut(df.成绩, bins, labels = labels)

#分组之后再聚合aggregation：根据自定义分组进行统计
result2 = df.groupby(by = ['成绩分组'])['成绩'].agg({
                                      '总分':np.sum,
                                      '人数':np.size,
                                      '平均成绩':np.sum,
                                      '标准差':np.std})

生成数据透视表

"""
生成数据透视表
"""
import pandas as pd
import numpy as np

df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/简单数据分析/3.生成数据透视表/data1.csv',
                 encoding = 'gbk')

#按成绩自定义分组
bins =[min(df.成绩)-1, 70, 80, 90, max(df.成绩)+1]
labels = ['70以下','70-80','80-90','90以上']
df['成绩分组'] = pd.cut(df.成绩, bins, labels = labels)


'''
pivot_table(values,index,columns,aggfunc)
values:定义数据透视表中的值【成绩】
index:定义表中的行【分组】
columns:定义表中的列【性别】
aggfunc:定义数据透视表的函数【统计np.size】
'''
result = df.pivot_table(values = ['成绩'],
                        index = ['成绩分组'],
                        columns = ['性别'],
                        aggfunc = [np.size])#np.mean