统计分析是数据分析重要的组成部分, 它几乎贯穿了整个数据分析的流程。应 用统计方法,将定量与定性结合,进行 的研究活动叫统计分析。统计分析除了 包含单一数值型特征的数据集中趋势、 离散趋势和峰度与偏度等统计知识外, 还包含了多个特征比较计算等知识。本 章将介绍使用pandas库进行统计分析所 需要掌握的基本知识
目录 1 创建透视表与交叉表 使用分组聚合进行组内计算 23 小结
使用groupby方法拆分数据 分组聚合造作的原理图 ABCABCABC键 051051015101520 数据 AAA 0510 拆分 BBB 51015 CCC 101520 应用 合并 ABC 153045 求和 求和求和
Ø 该方法提供的是分组聚合步骤中的拆分功能,能根据索引或字段对数据进行分组。其常用参数与使用格式如下。 DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs) 使用groupby方法拆分数据 groupby方法的参数及其说明 参数名称 说明 by 接收list,string,mapping或generator。用于确定进行分组的依据。无默认。 axis 接收int。表示操作的轴向,默认对列进行操作。默认为0。 level 接收int或者索引名。代表标签所在级别。默认为None。 as_index 接收boolearn。表示聚合后的聚合标签是否以DataFrame索引形式输出。默认为True。 sort 接收boolearn。表示是否对分组依据分组标签进行排序。默认为True。 group_keys 接收boolearn。表示是否显示分组标签的名称。默认为True。 squeeze 接收boolearn。表示是否在允许的情况下对返回数据进行降维。默认为False。
groupby方法的参数及其说明——by参数的特别说明 Ø 如果传入的是一个函数则对索引进行计算并分组。 Ø 如果传入的是一个字典或者Series则字典或者Series的值用来做分组依据。 Ø 如果传入一个NumPy数组则数据的元素作为分组依据。 Ø 如果传入的是字符串或者字符串列表则使用这些字符串所代表的字段作为分组依据。
Ø 用groupby方法分组后的结果并不能直接查看,而是被存在内存中,输出的是内存地址。实际上分组后的数据对 象GroupBy类似Series与DataFrame,是pandas提供的一种对象。GroupBy对象常用的描述性统计方法如下。 使用groupby方法拆分数据 GroupBy对象常用的描述性统计方法 方法名称 说明 方法名称 说明 count 计算分组的数目,包括缺失值。 cumcount 对每个分组中组员的进行标记, 0至n-1。 head 返回每组的前n个值。 size 返回每组的大小。 max 返回每组最大值。 min 返回每组最小值。 mean 返回每组的均值。 std 返回每组的标准差。 median 返回每组的中位数。 sum 返回每组的和。
Ø agg,aggregate方法都支持对每个分组应用某函数,包括Python内置函数或自定义函数。同时这两个方 法能够也能够直接对DataFrame进行函数应用操作。 Ø 在正常使用过程中,agg函数和aggregate函数对DataFrame对象操作时功能几乎完全相同,因此只需要 掌握其中一个函数即可。它们的参数说明如下表。 DataFrame.agg(func, axis=0, *args, **kwargs) DataFrame.aggregate(func
统计分析
最新推荐文章于 2022-01-26 09:52:32 发布
本文将带你走进统计分析的世界,从基础概念到实际应用,通过实例解析如何进行有效的数据探索、假设检验和预测模型构建,帮助你掌握统计学在解决实际问题中的核心技巧。
摘要由CSDN通过智能技术生成