pandas基本数据统计分析

本文的主要内容是基于中国大学mooc(慕课)中的“Python数据分析与可视化”课程进行整理和总结。
pandas提供了一些数据统计分析的函数,这些函数使用于Series和DataFrame类型。

函数名 函数定义
.sum() 计算数据的总和,按照0轴计算,下同
.count() 非NaN的数量
.mean() .median() 计算数据的算术平均值,算数中位数
.var() .std() 计算数据的方差,标准差
.min() .max() 计算数据的最小值/最大值

还有一些函数只适用于Serise类型。

函数名 函数定义
.argmin() argmax() 计算数据最小值,最大值所在位置的索引(自动索引)
.idxmin() idmax() 计算数据最小值,最大值所在位置的索引(自定义索引)

自动索引的一个比较大的好处在于:自动索引是一个0-n的数,我们很容易的可以通过区间切片或者索引的方式获得我们需要的数据,而自定义索引很难形成一个序列,对其进行切片相对复杂或没有一定规律可循。
在Series和DataFrame类型中有一个方法囊括了所有方法的结果:

函数名 函数定义
.describe() 针对0轴(各列)的汇总统计
a = pd.Series([9, 8, 7, 6],index=['a','b','c','d']
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PandasPython中一个强大的数据处理库,它提供了高效的数据结构DataFrame和Series,使得数据清洗、转换、分组、聚合等操作变得简单易行。在数据统计实验分析中,Pandas的功能尤为突出,它可以进行各种统计计算,包括描述性统计(如平均值、中位数、标准差、频率分布等)、数据清洗(异常值检测和处理)、数据透视(交叉表)、以及数据可视化(如直方图、箱线图等)。 以下是Pandas进行数据统计实验分析的一些核心步骤和功能: 1. **数据加载**:使用`read_csv`、`read_excel`等函数从文件或数据库中加载数据到DataFrame。 2. **数据预处理**: - **描述性统计**:使用`describe()`函数获取基本统计摘要,如count、mean、std、min、25%, 50%, 75%和max。 - **缺失值处理**:`isnull()`和`dropna()`用于检查和删除缺失值,`fillna()`用于填充缺失值。 3. **数据分组和聚合**: - `groupby()`用于按照某一列或多列对数据进行分组,然后应用统计函数(如`sum()`, `mean()`, `count()`等)。 - `pivot_table()`用于创建数据透视表,进行多维度汇总。 4. **数据可视化**: - `plot()`函数支持各种图表绘制,例如折线图、柱状图、散点图等。 - `hist()`用于绘制直方图展示数值变量的分布。 5. **假设检验和统计推断**:虽然Pandas本身不直接提供这些功能,但可以配合其他库(如SciPy、statsmodels等)进行更复杂的统计分析

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值