Python开发之数据统计:描述性统计与聚合计算
本文将为大家介绍Python在数据统计方面的应用,主要分为描述性统计和聚合计算两部分。我们将通过一些实际案例和技巧,让大家更好地理解这些概念和方法。
描述性统计
描述性统计是数据分析的基础,它主要包括数据的中心趋势、离散程度、分布形状等特征。在Python中,我们可以使用pandas
和numpy
这两个库来进行描述性统计。
应用场景
假设你是一家电商公司的数据分析师,你需要对产品的销售数据进行分析,以便为公司的决策提供依据。你可以使用描述性统计来获取销售数据的中心趋势、离散程度等特征。
实用技巧
- 使用
pandas
的describe()
方法可以快速得到数据的描述性统计信息,包括计数、平均值、标准差、最小值、四分位数和最大值等。
import pandas as pd
data = pd.DataFrame({
'商品A': [1, 2, 3, 4, 5],
'商品B': [10, 20, 30, 40, 50]
})
print(data.describe())
- 使用
numpy
的percentile()
方法可以计算数据的任意百分位数。
import numpy as np
data = np.array([1, 2, 3, 4, 5])
print(np.percentile(data, [25