【Pandas】一文向您详细介绍 pd.describe() 的用法
下滑即可查看博客内容
🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇
🎓 博主简介:985高校的普通本硕,曾有幸发表过人工智能领域的 中科院顶刊一作论文,熟练掌握PyTorch框架。
🔧 技术专长: 在CV、NLP及多模态等领域有丰富的项目实战经验。已累计提供近千次定制化产品服务,助力用户少走弯路、提高效率,近一年好评率100% 。
📝 博客风采: 积极分享关于深度学习、PyTorch、Python相关的实用内容。已发表原创文章500余篇,代码分享次数逾六万次。
💡 服务项目:包括但不限于科研辅导、知识付费咨询以及为用户需求提供定制化解决方案。
下滑即可查看博客内容
📚 一、引言
在数据分析的世界里,Pandas无疑是一个强大的工具。它提供了丰富的数据结构(如Series和DataFrame)和数据处理功能,使得数据清洗、转换和分析变得轻而易举。其中,pd.describe()
函数是Pandas中一个非常实用的功能,它可以帮助我们快速了解数据集的基本统计信息。本文将详细介绍pd.describe()
的用法,并通过实例让您深入理解其工作原理。
🔍 二、认识 pd.describe()
pd.describe()
是Pandas库中DataFrame和Series对象的一个方法,用于生成描述性统计信息。对于数值型数据,它默认计算并返回以下统计量:
- count:非空值的数量
- mean:平均值
- std:标准差
- min:最小值
- 25%:第一个四分位数(即25%处的值)
- 50%:中位数(即50%处的值,也叫第二四分位数)
- 75%:第三个四分位数(即75%处的值)
- max:最大值
💻 三、基本用法示例
首先,我们需要导入Pandas库并创建一个简单的DataFrame。
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': [1, 2, 3, 4, 5],
'B': [10, 20, 30, 20, 15],
'C': ['foo', 'bar', 'foo', 'bar', 'foo'],
'D': pd.date_range('20230101', periods=5)
}
df = pd.DataFrame(data)
# 使用pd.describe()查看统计信息
print(df.describe())
输出:
A B D
count 5.000000 5.000000 5
mean 3.000000 19.000000 2023-01-03 00:00:00
min 1.000000 10.000000 2023-01-01 00:00:00
25% 2.000000 15.000000 2023-01-02 00:00:00
50% 3.000000 20.000000 2023-01-03 00:00:00
75% 4.000000 20.000000 2023-01-04 00:00:00
max 5.000000 30.000000 2023-01-05 00:00:00
std 1.581139 7.416198 NaN
🔧 四、进阶用法
1. 排除某些列
如果你只想对DataFrame中的某些列进行描述性统计,可以使用include
和exclude
参数来指定要包含或排除的列的数据类型。
# 只对数值型列进行描述性统计
print(df.describe(include='number'))
# 排除数值型列,对其他类型列进行描述(但这里'C'和'D'没有可用的统计量)
print(df.describe(exclude='number'))
2. 百分比位数
默认情况下,pd.describe()
返回的是四分位数(25%,50%,75%)。但你可以通过percentiles
参数指定其他百分比位数。
# 计算10%和90%处的值
print(df.describe(percentiles=[0.1, 0.9]))
🚀 五、总结与展望
在本文中,我们详细介绍了Pandas中pd.describe()
函数的用法,并通过示例展示了其基本用法、进阶用法以及与其他功能的结合使用。
Pandas是一个功能强大的数据分析工具,它提供了丰富的数据处理和分析功能,使得我们可以更加高效地处理和分析数据。通过深入理解和掌握Pandas的使用方法和技巧,我们可以更好地利用数据驱动决策,提升工作效率和数据分析水平。
未来,随着数据科学领域的不断发展和新技术的不断涌现,Pandas也将会不断更新和完善其功能。我们可以期待Pandas在未来为我们带来更多惊喜和便利!#Pandas #DataAnalysis #StringFormatting #DataFrame #Statistics