相关扩展库
1# -*- coding: UTF-8 -*-
2
3import pandas as pd
4
5data_dict = {'first_col': [1, 2, 3, 4], 'second_col': [5, 6, 7, 8]}
6
7df = pd.DataFrame(data_dict)
统计简略信息
1# 生成简要的数据统计数据
2
3describe(percentiles=None, include=None, exclude=None)
4# first_col second_col
5# count 4.000000 4.000000 总数量
6# mean 2.500000 6.500000 均值
7# std 1.290994 1.290994 方差
8# min 1.000000 5.000000 最小值
9# 25% 1.750000 5.750000 25%数据量时的数据
10# 50% 2.500000 6.500000 50%数据量时的数据
11# 75% 3.250000 7.250000 75%数据量时的数据
12# max 4.000000 8.000000 最大值
13
14# percentiles 指定统计量,默认是25%、50%、75%时的数据量
15# include 包含数据类型,include='all'同时包含离散型与数值型的统计特征、include='O'包含离散型、默认include=None包含数值型
16# exclude 不包含数据类型,exclude='O'不包含离散型
17
18print(df.describe(percentiles=[.2,.4,.6,.8], include=None, exclude='O'))
head()与tail()函数
1# head() 函数前多少行
2
3print(df.head(2))
4
5# tail() 函数后多少行
6
7print(df.tail(2))
数据聚合统计
1# 获取某一列的和
2
3print(df['first_col'].sum())
4
5# 获取某一列的均值
6
7print(df['first_col'].mean())
8
9# 获取某一列的总数量
10
11print(df['first_col'].count())
12
13# 获取某一列的最大值
14
15print(df['first_col'].max())
16
17# 获取某一列的最小值
18
19print(df['first_col'].min())
数据结构统计
1# 返回列的数据类型
2
3print(df.dtypes)
4
5# size()返回数据总数
6
7print(df.size)
8
9# 返回数据形状,几行几列
10
11print(df.shape)
12
13# 返回列数
14
15print(df.ndim)
16
17# 返回每一列的名称
18
19print(df.axes)