Python Pandas Dataframe.describe()用法及代码示例

Python是进行数据分析的一种出色语言,主要是因为以数据为中心的Python软件包具有奇妙的生态系统。 Pandas是其中的一种,使导入和分析数据更加容易。

Pandas describe()用于查看一些基本的统计详细信息,例如数据帧的百分位数,均值,标准差等或一系列数值。当此方法应用于一系列字符串时,它将返回不同的输出,如以下示例所示。

用法:DataFrame.describe(percentiles=None, include=None, exclude=None)

参数:
percentile:列出像0-1之间的数字的数据类型以返回各自的百分位数
include:描述 DataFrame 时要包括的数据类型列表。默认为无
exclude:描述 DataFrame 时要排除的数据类型列表。默认为无

返回类型: DataFrame 的统计摘要。

要下载以下示例中使用的数据集,请单击此处。在以下示例中,使用的 DataFrame 包含一些NBA球员的数据。下面是任何操作之前的数据帧图像。

范例1:描述具有对象和数字数据类型的 DataFrame

在此示例中,描述了 DataFrame ,并传递了['object']以包含参数以查看对象系列的描述。将[.20,.40,.60,.80]传递给百分位数参数,以查看数字系列的相应百分位数。

# importing pandas module  
import pandas as pd  
  
# importing regex module 
import re 
    
# making data frame  
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv")  
    
# removing null values to avoid errors  
data.dropna(inplace = True)  
  
# percentile list 
perc =[.20, .40, .60, .80] 
  
# list of dtypes to include 
include =['object', 'float', 'int'] 
  
# calling describe method 
desc = data.describe(percentiles = perc, include = include) 
  
# display 
desc

输出:
如输出图像中所示,返回了数据帧的统计描述以及各自传递的百分位数。对于带有字符串的列,返回NaN进行数字运算。


范例2:描述字符串系列

在此示例中,“名称”列调用describe方法,以查看对象数据类型的行为。

# importing pandas module  
import pandas as pd  
  
# importing regex module 
import re 
    
# making data frame  
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv")  
    
# removing null values to avoid errors  
data.dropna(inplace = True)  
  
# calling describe method 
desc = data["Name"].describe() 
  
# display 
desc

输出:
如输出图像中所示,describe()的行为对于一系列字符串是不同的。
在这种情况下,返回了不同的统计信息,例如值的计数,唯一值,出现次数的最高值和发生频率。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: data.describe()是一个用于统计数据的函数,它可以计算数据集的基本统计信息,如均值、标准差、最小值、最大值、中位数等。这个函数可以用于Pandas DataFrame和Series对象。它可以帮助我们更好地了解数据集的分布和特征。 ### 回答2: 在Python中,data.describe()是一个用于统计数据集主要统计指标的函数。它的主要功能是提供对数据集的统计概括信息,包括计数、均值、标准差、最小值、最大值以及数据的分位数等。 具体而言,data.describe()可以提供以下统计指标: 1. 计数(count):即数据集中非缺失值的数量。 2. 均值(mean):数据集中所有数值的平均值。 3. 标准差(std):数据集中所有数值的离散程度,标准差越大表示数据的离散程度越高。 4. 最小值(min):数据集中数值的最小值。 5. 最大值(max):数据集中数值的最大值。 6. 分位数(percentiles):数据集中数值按照一定比例切分点的值。 除了以上统计指标外,data.describe()还会输出数据集中各个数值列的统计概括信息,包括每列的计数、均值、标准差、最小值、25%分位数、50%分位数、75%分位数和最大值。 通过使用data.describe()函数,可以方便地对数据集进行快速的统计分析,有助于了解数据的整体分布情况、异常值的存在等,为后续的数据处理和建模提供参考。 ### 回答3: 在Python中,数据分析常用到的pandas库提供了一个非常有用的函数`data.describe()`,用于计算数据的统计信息。 `data.describe()`函数会计算各列数据的基本统计特征,返回一个包含以下内容的数据框: - 计数(count):每个列的非缺失值数量。 - 均值(mean):每个列的平均值。 - 标准差(std):每个列的标准差。 - 最小值(min):每个列的最小值。 - 四分位数(25%,50%,75%):每个列的四分之一数,用于了解数据的中间部分。 - 最大值(max):每个列的最大值。 这些统计信息能够帮助我们快速了解数据的分布情况、异常值等重要信息。例如,通过观察均值和标准差,可以初步判断数据是否呈现正态分布,以及数据间的差异程度。四分位数则有助于了解数据的分布形态和离散程度。 此外,`data.describe()`函数也非常适用于初步了解数据集中的缺失值情况。通过对比计数和数据集总行数,即可得知每个列中缺失值的数量。 要注意的是,`data.describe()`函数只会计算数值型数据列的统计信息,对于非数值型数据(如字符串、日期等),结果会被忽略。 因此,通过使用`data.describe()`函数,我们可以在数据分析的初期阶段,快速了解数据的分布、异常值、缺失值等关键信息,为后续的数据处理和建模提供指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值