python学习——描述统计df.describe

1 描述统计

描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas 库将“描述统计学”作为理论基奠,是对描述统计学知识完美应用的体现。下列表格对 Pandas 常用的统计学函数做了简单的总结:

函数名称描述说明
count()统计某个非空值的数量。
sum()求和
mean()均值
median()中位数
mode()众数
std()标准差
min()最小值
max()最大值
abs()绝对值
describe()统计描述
prod()所有数值的乘积。
cumsum()计算累计和,axis=0,按照行累加;axis=1,按照列累加。
cumprod()计算累计积,axis=0,按照行累积;axis=1,按照列累积。
corr()计算数列或变量之间的相关系数,取值-1到1,值越大表示关联性越强。

数据集:鸢尾花数据集
链接:https://pan.baidu.com/s/1KXGcqRGkZ0etMach5sIRhg
提取码:2wfo
在这里插入图片描述

1.1 查看常见统计量 describe

df.describe()  #数值型统计描述,非空数值
df.describe(include = ['object'])  #类别型统计描述
df.describe(include = 'all') #包含所有

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

1.2 一般对数值型数据统计

1.2.1 基于非空数值统计sum\mean\max\min\var\std

df.iloc[:,:4].sum()  #默认按照列进行求和,添加参数axis = 1,可按行统计,可以同时处理数字和字符串数据,但是字符聚合通常不被使用 
#sum\mean\max\min\var\std 基于非空的数

在这里插入图片描述

1.2.2 每一列中最大值的行索引 idxmax

df.iloc[:,:4].idxmax()

在这里插入图片描述

1.2.3 每一行中最大值的列索引 idxmax(axis = 1)

df.iloc[:,:4].idxmax(axis = 1)

在这里插入图片描述

1.2.4 非空的数量 count()

df.count()

在这里插入图片描述

1.3 一般对字符型数据统计

1.3.1 序列有多少不同的取值

df[''].unique()  #取值
df[''].nunique() #取值数量

在这里插入图片描述

1.3.2 统计分类次数

df[''].value_counts()  #统计分类变量每种分类出现次数

在这里插入图片描述

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
`df.describe()`函数是一个用于描述数据集的函数,它返回一个包含数据集中各个列的统计信息的数据框。这些统计信息包括:计数、平均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值。 例如,如果我们有一个名为df的数据框,我们可以使用`df.describe()`函数来获得描述这个数据框的统计信息。该函数将返回一个新的数据框,其中包括df中的每个数值列的统计信息。如果数据框中有非数值列,则这些列将被忽略。 下面是一个使用Pandas库中的df.describe()函数的示例代码: ``` import pandas as pd # 创建一个数据框 data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'age': [25, 32, 18, 47, 22], 'height': [165, 180, 157, 175, 172], 'weight': [55, 78, 45, 90, 62]} df = pd.DataFrame(data) # 使用describe()函数获取统计信息 df.describe() ``` 输出结果为: ``` age height weight count 5.000000 5.000000 5.000000 mean 28.800000 169.800000 66.000000 std 12.326899 10.446314 18.475143 min 18.000000 157.000000 45.000000 25% 22.000000 165.000000 55.000000 50% 25.000000 172.000000 62.000000 75% 32.000000 175.000000 78.000000 max 47.000000 180.000000 90.000000 ``` 从结果中可以看出,数据框中有5行数据,每列数据的平均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值都被列出。 例如,年龄列的平均值是28.8岁,最小值是18岁,最大值是47岁,标准差是12.33岁。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值