【Pandas】一文向您详细介绍 pd.describe() 的用法

高斯小哥

于 2024-05-27 00:41:13 发布

阅读量1.2k

点赞数 18

分类专栏： Pandas 文章标签： pandas

本文链接：https://blog.csdn.net/qq_41813454/article/details/139061335

版权

Pandas 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

【Pandas】一文向您详细介绍 pd.describe() 的用法

下滑即可查看博客内容
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！🎇

🎓 博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的 中科院顶刊一作论文，熟练掌握PyTorch框架。

🔧 技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计提供近千次定制化产品服务，助力用户少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于深度学习、PyTorch、Python相关的实用内容。已发表原创文章500余篇，代码分享次数逾六万次。

💡 服务项目：包括但不限于科研辅导、知识付费咨询以及为用户需求提供定制化解决方案。

下滑即可查看博客内容

📚 一、引言

在数据分析的世界里，Pandas无疑是一个强大的工具。它提供了丰富的数据结构（如Series和DataFrame）和数据处理功能，使得数据清洗、转换和分析变得轻而易举。其中，pd.describe()函数是Pandas中一个非常实用的功能，它可以帮助我们快速了解数据集的基本统计信息。本文将详细介绍pd.describe()的用法，并通过实例让您深入理解其工作原理。

🔍 二、认识 `pd.describe()`

pd.describe()是Pandas库中DataFrame和Series对象的一个方法，用于生成描述性统计信息。对于数值型数据，它默认计算并返回以下统计量：

count：非空值的数量
mean：平均值
std：标准差
min：最小值
25%：第一个四分位数（即25%处的值）
50%：中位数（即50%处的值，也叫第二四分位数）
75%：第三个四分位数（即75%处的值）
max：最大值

💻 三、基本用法示例

首先，我们需要导入Pandas库并创建一个简单的DataFrame。

import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 20, 15],
    'C': ['foo', 'bar', 'foo', 'bar', 'foo'],
    'D': pd.date_range('20230101', periods=5)
}
df = pd.DataFrame(data)

# 使用pd.describe()查看统计信息
print(df.describe())

输出：

              A          B                    D
count  5.000000   5.000000                    5
mean   3.000000  19.000000  2023-01-03 00:00:00
min    1.000000  10.000000  2023-01-01 00:00:00
25%    2.000000  15.000000  2023-01-02 00:00:00
50%    3.000000  20.000000  2023-01-03 00:00:00
75%    4.000000  20.000000  2023-01-04 00:00:00
max    5.000000  30.000000  2023-01-05 00:00:00
std    1.581139   7.416198                  NaN

🔧 四、进阶用法

1. 排除某些列

如果你只想对DataFrame中的某些列进行描述性统计，可以使用include和exclude参数来指定要包含或排除的列的数据类型。

# 只对数值型列进行描述性统计
print(df.describe(include='number'))

# 排除数值型列，对其他类型列进行描述（但这里'C'和'D'没有可用的统计量）
print(df.describe(exclude='number'))

2. 百分比位数

默认情况下，pd.describe()返回的是四分位数（25%，50%，75%）。但你可以通过percentiles参数指定其他百分比位数。

# 计算10%和90%处的值
print(df.describe(percentiles=[0.1, 0.9]))

🚀 五、总结与展望

在本文中，我们详细介绍了Pandas中pd.describe()函数的用法，并通过示例展示了其基本用法、进阶用法以及与其他功能的结合使用。

Pandas是一个功能强大的数据分析工具，它提供了丰富的数据处理和分析功能，使得我们可以更加高效地处理和分析数据。通过深入理解和掌握Pandas的使用方法和技巧，我们可以更好地利用数据驱动决策，提升工作效率和数据分析水平。

未来，随着数据科学领域的不断发展和新技术的不断涌现，Pandas也将会不断更新和完善其功能。我们可以期待Pandas在未来为我们带来更多惊喜和便利！#Pandas #DataAnalysis #StringFormatting #DataFrame #Statistics

高斯小哥

关注

18
点赞
踩
31

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Pandas】一文向您详细介绍 pd.describe() 的用法

🚀 深入探索Pandas神器，解锁`pd.describe()`强大功能！🌟无需繁琐计算，一键生成数据概览！从基础到进阶，`pd.describe()`助你秒懂数据集。轻松排除指定列，自定义百分比位数，让数据分析更高效。快来掌握这个数据科学必备技能，让你的数据分析之路如虎添翼！#Pandas #describe函数 #数据分析 #Python #数据科学
复制链接

扫一扫