Pandas中describe()函数的使用介绍

程序员在旅途

已于 2022-05-15 21:37:04 修改

阅读量10w+

点赞数 89

分类专栏： Python数据分析与挖掘文章标签：统计值 pandas describe dataframe series

于 2019-12-28 10:34:58 首次发布

本文链接：https://blog.csdn.net/qq_24754061/article/details/103738513

版权

Python数据分析与挖掘专栏收录该内容

6 篇文章

订阅专栏

Pandas中describe()函数的使用介绍

一、describe()函数介绍

pandas 是基于numpy构建的含有更高级数据结构和工具的数据分析包，提供了高效地操作大型数据集所需的工具。pandas有两个核心数据结构 Series和DataFrame，分别对应了一维的序列和二维的表结构。而describe()函数就是返回这两个核心数据结构的统计变量。其目的在于观察这一系列数据的范围、大小、波动趋势等等，为后面的模型选择打下基础。(更多内容，可参阅程序员在旅途)

pandas.DataFrame.describe 的官方文档。

DataFrame.describe(percentiles=None, include=None, exclude=None)
# return: Series or DataFrame.  Summary statistics of the Series or Dataframe provided.

二、使用案例

2.1 统计一个 series 信息

列值为数字的：

import pandas as pd
s = pd.Series([1, 2, 3, 4])
print(s.describe())

列值为非数字的：

a = pd.Series(['a', 'd', 'r', 't'])
print(a.describe())

注意上面两幅图，字母列和数值列的统计结果是不一样的。

2.2 统计一个dataframe的信息

import pandas as pd
c = pd.DataFrame({'categorical': pd.Categorical(['d', 'e', 'f']), 'numeric': [1, 2, 3], 'object': ['a', 'b', 'c']})
print(c)
desc = c.describe(include='all')  # include='all',代表对所有列进行统计，如果不加这个参数，则只对数值列进行统计
print(desc)