df.describe()
是 pandas 库中用于生成数据框(DataFrame)的基本统计摘要的方法。
当你调用 df.describe()
时,它会返回一个包含各种统计信息的数据框,包括:
- 计数(count):非缺失值的数量。
- 平均值(mean):所有非缺失值的平均值。
- 标准差(std):所有非缺失值的标准差。
- 最小值(min):所有非缺失值的最小值。
- 25%、50%、75%:分位数,分别对应第 25%、50%(中位数)、75% 的位置。
- 最大值(max):所有非缺失值的最大值。
这些统计信息可以帮助你了解数据的分布、集中趋势和离散度。
示例1:
import pandas as pd
# 创建一个示例数据框
data = {'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1]}
df = pd.DataFrame(data)
# 使用 describe() 方法生成统计摘要
summary = df.describe()
print(summary)
输出:
A B
count 5.000000 5.000000
mean 3.000000 3.000000
std 1.581139 1.581139
min 1.000000 1.000000
25% 2.000000 2.000000
50% 3.000000 3.000000
75% 4.000000 4.000000
max 5.000000 5.000000
在这个示例中,数据框 df
中有两列 ‘A’ 和 ‘B’,df.describe()
生成了关于这两列的基本统计摘要。
示例2: