Pandas函数之统计函数

最新推荐文章于 2024-05-24 21:19:07 发布

南方的孩子

最新推荐文章于 2024-05-24 21:19:07 发布

阅读量1.1k

点赞数 3

分类专栏：数据分析 python 文章标签： pandas 统计函数

本文链接：https://blog.csdn.net/qq_35239633/article/details/103269159

版权

python 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

数据分析

2 篇文章 0 订阅

订阅专栏

文章目录

基本统计函数

函数	描述
sum()	所有值的和，默认对列操作
count()	非空的数量，默认对列操作
mean()	平均值，默认对列操作
median()	中位数，默认对列操作
std()	标准差，默认对列操作
max()	最大值，默认对列操作
min()	最小值，默认对列操作
describe()	描述性信息，默认对数值型的数据操作
size	计数，默认对列操作
var()	方差，默认对列操作
info()	返回数据集的基础信息，每一列数量统计，哪些列有缺失值，数据类型等

import pandas as pd
student = {
    '学号':['001','002','003','004','005','006','007','008','009','010'],
    '语文':[103,99,111,87,121,132,114,100,107,101],
    '数学':[88,92,145,78,111,120,66,99,112,103],
    '英语':[127,100,99,46,68,98,88,111,102,93],
    '理综':[203,199,236,198,222,276,183,193,231,173]
}
# 不显示科学计数法，小数点后保留两位小数
pd.set_option('display.float_format', lambda x: '%.2f' % x)
df = pd.DataFrame(student)

	学号	语文	数学	英语	理综
0	001	103	88	127	203
1	002	99	92	100	199
2	003	111	145	99	236
3	004	87	78	46	198
4	005	121	111	68	222
5	006	132	120	98	276
6	007	114	66	88	183
7	008	100	99	111	193
8	009	107	112	102	231
9	010	101	103	93	173

# 每一列求和,过滤学号那一列
df.iloc[:,1:].sum()

语文    1075
数学    1014
英语     932
理综    2114
dtype: int64

# 每一行求和
df.iloc[:,1:].sum(axis=1

0    521
1    490
2    591
3    409
4    522
5    626
6    451
7    503
8    552
9    470
dtype: int64

# 新增一列总分
df['总分'] = df.iloc[:,1:].sum(axis=1)

	学号	语文	数学	英语	理综	总分
0	001	103	88	127	203	521
1	002	99	92	100	199	490
2	003	111	145	99	236	591
3	004	87	78	46	198	409
4	005	121	111	68	222	522
5	006	132	120	98	276	626
6	007	114	66	88	183	451
7	008	100	99	111	193	503
8	009	107	112	102	231	552
9	010	101	103	93	173	470

# 描述性信息，默认针对数值型数据 
df.describe()

	语文	数学	英语	理综	总分
count	10.00	10.00	10.00	10.00	10.00
mean	107.50	101.40	93.20	211.40	513.50
std	12.69	22.43	22.43	30.37	64.68
min	87.00	66.00	46.00	173.00	409.00
25%	100.25	89.00	89.25	194.25	475.00
50%	105.00	101.00	98.50	201.00	512.00
75%	113.25	111.75	101.50	228.75	544.50
max	132.00	145.00	127.00	276.00	626.00

# 统计object类型的信息
df.describe(include='object')

	学号
count	10
unique	10
top	007
freq	1

高级统计函数

部分一

函数	描述
cov()	协方差
corr()	相关系数(皮尔森系数)
rank()	排名
value_counts()	统计频次，只能作用于Series
quantile	分位数（0.5表示中位数）
skew()	偏度
kurt()	峰度
groupby()	分组
aggregate()或agg()	聚合运算

关于偏度与峰度，请点击查看

arr_str = {
    'A': ['a', 'b', 'c', 'a', 'a', 'b'],
    'B':[1, 2, 4, 7, 2, 8],
    'C':['f','f','m','f','m','m']
}
df = pd.DataFrame(arr_str)

	A	B	C
0	a	1	f
1	b	2	f
2	c	4	m
3	a	7	f
4	a	2	m
5	b	8	m

分组groupy()

"""
groupby()表示按某一列或多列进行分组
"""
# 返回DataFrameGropyBy的对象
df.groupby('A')
# 返回SeriesGroupBy的对象
df.groupby('A')['B']
# 返回分组后的平均值
df.groupby('A')['B'].mean()

Out[99]:
A
a   3.33
b   5.00
c   4.00
Name: B, dtype: float64
# 统计个数
df.groupby('A')['B'].size()

Out[104]:
A
a    3
b    2
c    1
Name: B, dtype: int64
# 统计频次
df.groupby('A')['B'].value_counts()

Out[121]:
A  B
a  1    1
   2    1
   7    1
b  2    1
   8    1
c  4    1
Name: B, dtype: int64
# groupby后的数据为series类型，若要保持DataFrame，请使用as_index参数
df.groupby('A', as_index=False)['B'].value_counts()
	A	B
0	a	3.33
1	b	5.00
2	c	4.00
# 统计频次分布
df.groupby('A')['B'].value_counts().unstack()

B	1	2	4	7	8
A
a	1.00	1.00	nan	1.00	nan
b	nan	1.00	nan	nan	1.00
c	nan	nan	1.00	nan	nan

聚合aggregate()

"""
aggregate()或者简写成agg()表示聚合操作，
传入的参数可以为：函数,函数列表，字典
"""
# 传入匿名函数，返回分组后的最大值
df.groupby('A').agg(lambda x: np.max(x))

Out[129]:
	B	C
A
a	7	m
b	8	m
c	4	m
# 传入函数列表
df.groupby('A').agg([np.max, np.min, np.mean])

Out[135]:
	B	C
A	
a	7	m	
b	8	m
c	4	m
# 传入字典
df.groupby('A').agg({'B':np.mean,'C':np.max})

Out[138]:
	B		C
A
a	3.33	m
b	5.00	m
c	4.00	m

部分二

函数	描述
idxmin()	最小值所在的位置，只能作用于Series
idxmax()	最大值所在的位置，只能作用于Series
any()	逻辑或
all()	逻辑与
pct_change()	表示与前一个数据相差的百分比，针对数值型的数据
cumsum()	累计和
cumprod()	累计积
unique()	统计不重复的数据，只能作用于Series
sort_index()	按索引排序
sort_values()	按值排序，只能作用于Series

# 返回最大值所在位置
df1['B'].idxmax()

Out[160]:
5
# 返回累计和
df1.cumsum()

Out[162]:
	A		B		C
0	a		1		f
1	ab		3		ff
2	abc		7		ffm
3	abca	14		ffmf
4	abcaa	16		ffmfm
5	abcaab	24		ffmfmm

# 返回一个数组
df1['A'].unique()

Out[32]:
array(['a', 'b', 'c'], dtype=object)

南方的孩子

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Pandas函数之统计函数

文章目录基本统计函数高级统计函数部分一部分二基本统计函数函数描述sum()所有值的和，默认对列操作count()非空的数量，默认对列操作mean()平均值，默认对列操作median()中位数，默认对列操作std()标准差，默认对列操作max()最大值，默认对列操作min()最小值，默认对列操作describe()描述...
复制链接

扫一扫

专栏目录

	学号	语文	数学	英语	理综
0	001	103	88	127	203
1	002	99	92	100	199
2	003	111	145	99	236
3	004	87	78	46	198
4	005	121	111	68	222
5	006	132	120	98	276
6	007	114	66	88	183
7	008	100	99	111	193
8	009	107	112	102	231
9	010	101	103	93	173

	学号	语文	数学	英语	理综	总分
0	001	103	88	127	203	521
1	002	99	92	100	199	490
2	003	111	145	99	236	591
3	004	87	78	46	198	409
4	005	121	111	68	222	522
5	006	132	120	98	276	626
6	007	114	66	88	183	451
7	008	100	99	111	193	503
8	009	107	112	102	231	552
9	010	101	103	93	173	470

	学号	语文	数学	英语	理综
0	001	103	88	127	203
1	002	99	92	100	199
2	003	111	145	99	236
3	004	87	78	46	198
4	005	121	111	68	222
5	006	132	120	98	276
6	007	114	66	88	183
7	008	100	99	111	193
8	009	107	112	102	231
9	010	101	103	93	173

	学号	语文	数学	英语	理综	总分
0	001	103	88	127	203	521
1	002	99	92	100	199	490
2	003	111	145	99	236	591
3	004	87	78	46	198	409
4	005	121	111	68	222	522
5	006	132	120	98	276	626
6	007	114	66	88	183	451
7	008	100	99	111	193	503
8	009	107	112	102	231	552
9	010	101	103	93	173	470

	学号	语文	数学	英语	理综
0	001	103	88	127	203
1	002	99	92	100	199
2	003	111	145	99	236
3	004	87	78	46	198
4	005	121	111	68	222
5	006	132	120	98	276
6	007	114	66	88	183
7	008	100	99	111	193
8	009	107	112	102	231
9	010	101	103	93	173

	学号	语文	数学	英语	理综	总分
0	001	103	88	127	203	521
1	002	99	92	100	199	490
2	003	111	145	99	236	591
3	004	87	78	46	198	409
4	005	121	111	68	222	522
5	006	132	120	98	276	626
6	007	114	66	88	183	451
7	008	100	99	111	193	503
8	009	107	112	102	231	552
9	010	101	103	93	173	470