Pandas数据探索常用函数

最新推荐文章于 2024-05-06 12:50:20 发布

Eureka丶

最新推荐文章于 2024-05-06 12:50:20 发布

阅读量700

点赞数

分类专栏：数据处理&分析文章标签： python pandas

本文链接：https://blog.csdn.net/Jeremiah_/article/details/120668736

版权

数据处理&分析专栏收录该内容

12 篇文章 1 订阅

订阅专栏

这是一个学生各季度成绩总表（节选），各列说明如下。

name：学生的姓名，这列没有重复值，一个学生一行，即一条数据，共100条。
team：所在的团队、班级，这个数据会重复。
Q1～Q4：各个季度的成绩，可能会有重复值。

import pandas as pd
df = pd.read_excel('./team.xlsx')
df

df.head() # 查看前5条，括号里可以写明你想看的条数

df.tail() # 查看尾部5条

df.sample(5) # 随机查看5条

df.shape # 查看行数和列数

df.describe() # 查看数值型列的汇总统计

# 将描述性统计情况转置展示并添加缺失率栏位
df.describe().T.assign(missing_rate = df.apply(lambda x : (len(x)-x.count())/float(len(x))))

df.dtypes # 查看各字段数据类型

df.axes # 显示数据行和列名

df.columns # 列名

df.info()# 显示有数据类型、索引情况、行列数、各字段数据类型、内存占用等

df.set_index('name', inplace=True) # 建立索引并生效
df

# 查看指定列
df['Q1']

df.Q1 # 同上，如果列名符合Python变量名要求，可使用

# 选择多列
df[['team', 'Q1']] # 只看这两列，注意括号

df.loc[:, ['team', 'Q1']] # 和上一行效果一样

# 用指定索引选取
df[df.index == 'Liver'] # 指定姓名

# 用自然索引选择，类似列表的切片
df[0:3] # 取前三行

df[0:10:2] # 在前10个中每两个取一个

df.iloc[:10,:] # 前10个

df.loc['Ben', 'Q1':'Q4'] # 只看Ben的四个季度成绩

df.loc['Eorge':'Alexander', 'team':'Q4'] # 指定行区间

# 单一条件
df[df.Q1 > 90] # Q1列大于90的

df[df.team == 'C'] # team列为'C'的

df[df.index == 'Oscar'] # 指定索引即原数据中的name

# 组合条件
df[(df['Q1'] > 90) & (df['team'] == 'C')] # and关系

df[df['team'] == 'C'].loc[df.Q1>90] # 多重筛选

df.sort_values(by='Q1') # 按Q1列数据升序排列

df.sort_values(by='Q1', ascending=False) # 降序

df.sort_values(['team', 'Q1'], ascending=[True, False]) # team升序，Q1降序

df.groupby('team').sum() # 按团队分组对应列相加

df.groupby('team').mean() # 按团队分组对应列求平均

# 不同列不同的计算方法
df.groupby('team').agg({'Q1': sum,  # 总和
                        'Q2': 'count', # 总数
                        'Q3':'mean', # 平均
                        'Q4': max}) # 最大值

df.groupby('team').sum().T  # 转置

df.groupby('team').sum().stack() # 多重索引

df.groupby('team').sum().unstack()

df['one'] = 1 # 增加一个固定值的列

df['total'] = df.Q1 + df.Q2 + df.Q3 + df.Q4 # 增加总成绩列

# 将计算得来的结果赋值给新列
df['total'] = df.loc[:,'Q1':'Q4'].apply(lambda x:sum(x), axis=1)

df['total'] = df.sum(axis=1) # 可以把所有为数字的列相加

df['avg'] = df.total/4 # 增加平均成绩列

df

df.mean() # 返回所有列的均值

df.mean(1) # 返回所有行的均值，下同

df.corr() # 返回列与列之间的相关系数

df.count() # 返回每一列中的非空值的个数

df.max() # 返回每一列的最大值

df.min() # 返回每一列的最小值

df.median() # 返回每一列的中位数

df.std() # 返回每一列的标准差

df.var() # 方差

df.mode() # 众数

df['Q1'].plot.line() # Q1成绩的折线分布

df.loc['Ben','Q1':'Q4'].plot.line() # ben四个季度的成绩变化

df.loc[ 'Ben','Q1':'Q4'].plot.bar() # 柱状图

df.loc[ 'Ben','Q1':'Q4'].plot.barh() # 横向柱状图

# 各Team四个季度总成绩趋势
df.groupby('team').sum().T.loc['Q1':'Q4', :].plot.line()

# 各组人数对比
df.groupby('team').count().Q1.plot.pie()

Eureka丶

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas数据探索常用函数

这是一个学生各季度成绩总表（节选），各列说明如下。 name：学生的姓名，这列没有重复值，一个学生一行，即一条数据，共100条。 team：所在的团队、班级，这个数据会重复。 Q1～Q4：各个季度的成绩，可能会有重复值。 import pandas as pddf = pd.read_excel('./team.xlsx')dfdf.head() # 查看前5条，括号里可以写明你想看的条数df.tail() # 查看尾部5条df.samp..
复制链接

扫一扫