pandas中size方法_详解python pandas 分组统计的方法

最新推荐文章于 2022-05-24 08:08:21 发布

織田薫人

最新推荐文章于 2022-05-24 08:08:21 发布

阅读量2.7k

点赞数 2

文章标签： pandas中size方法

本文链接：https://blog.csdn.net/weixin_34323587/article/details/113471866

版权

首先，看看本文所面向的应用场景：我们有一个数据集df，现在想统计数据中某一列每个元素的出现次数。这个在我们前面文章《如何画直方图》中已经介绍了方法，利用value_counts()就可以实现(具体回看文章)

但是，现在，我们考虑另外一个场景，我们假如要想统计其中两列元素出现次数呢？举个栗子：

在df数据集中，如果我们想统计A、B两列的元素的出现情况，也就是说，得到如下表。

从上面的最后一列可以看到，在A、B两列中，1 2 出现了2次，1 4 出现1次，1 6出现1次，2 3出现了2次， 2 4 出现1次， 3 1出现了1次

具体实现的代码：

import pandas as pd

df=pd.DataFrame([[1,2,2],[1,4,5],[1,2,4],[1,6,3],[2,3,1],[2,4,1],[2,3,5],[3,1,1]],columns=['A','B','C'])

gp=df.groupby(by=['A','B'])

gp.size()

所以，如果想统计更多列，只要在groupby()中的by参数添加就可以，例如统计3列。

gp=df.groupby(by=['A','B','C'])

由gp.size()得到的是可以mulitiindex Series。

下面，要转化成DataFrame的结构。

newdf=gp.size()

newdf.reset_index(name='times')

其中name中参数就是我们可以为最后一列添加新的名字，例如这里的“times”

这个时候newdf已经是DataFrame的类型了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

織田薫人

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

pandas中size方法_Pandas用法总结

weixin_35426345的博客

01-28

3033

Pandas用法总结Pandas简介Pandas是基于NumPy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据库所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。Pandas基于两种数据类型：series 和 dataframeSeriesSeries是Pandas中最基本的对象，类似一维数组。事实上...

【Pandas】深入解析pandas中的统计汇总函数size()

最新发布

qq_38614074的博客

06-12

874

size()函数是pandas中一个非常有用的统计汇总函数，它可以帮助我们快速了解数据集的规模。通过具体的代码示例和解释，我们深入了解了size()函数的基本用法、原因以及可能遇到的问题和解决办法。在实际应用中，我们可以根据具体的需求和场景选择合适的参数和解决办法来优化性能和提高效率。

参与评论您还未登录，请先登录后发表或查看评论

pandas中size方法_Pandas基本属性和方法

weixin_35763448的博客

12-30

5260

Series基本功能：axes 返回行轴标签列表。dtype 返回对象的数据类型(dtype)。empty 如果系列为空，则返回True。ndim 返回底层数据的维数，默认定义：1。size 返回基础数据中的元素数。values 将系列作为ndarray返回。head() 返回前n行。tail() 返回最后n行。DataFrame基本功能T 转置行和列。axes 返回一个列，行轴标签和列轴标签作为...

深度学习算法基础----数据特征预处理，数据降维

sinat_41901394的博客

10-27

1722

目录数据特征预处理特征处理的方法sklearn特征处理归一化标准化结合标准化和归一化缺失值处理问题及解决：2.imputer 数据特征预处理图片：特征的预处理：对数据进行处理缺失值：预处理的两种方式：数据的特征预处理：特征处理的方法特征预处理是什么：通过特定的统计方法（数学方法）将数据转化成算法要求的数据。数值型数据处理方法：标准缩放： 1.归一化 2.标准化 3.缺失值 **类别型数据：**one-hot编码时间类型：时间的切分 sklearn特征处理 sklearn特征处理API

pandas中size方法_十分钟入门pandas（中）【解读pandas官方文档】

weixin_30280267的博客

02-02

412

接着前文继续import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdf = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))df缺失值处理重新索引允许您更改/添加/删除指定轴上的索引。这将返回数据的副本。df1 = df.re...

详解python pandas 分组统计的方法

12-25

这个在我们前面文章《如何画直方图》中已经介绍了方法，利用value_counts()就可以实现（具体回看文章）但是，现在，我们考虑另外一个场景，我们假如要想统计其中两列元素出现次数呢？举个栗子：在df数据集中，...

对Python 2.7 pandas 中的read_excel详解

12-24

导入pandas模块： import pandas as pd 使用import读入pandas模块，并且为了方便使用其缩写pd指代。读入待处理的excel文件： df = pd.read_excel('log.xls') 通过使用read_excel函数读入excel文件，后面需要替换...

python数据按照分组进行频率分布_详解python pandas 分组统计的方法

weixin_39724362的博客

11-29

1257

首先，看看本文所面向的应用场景：我们有一个数据集df，现在想统计数据中某一列每个元素的出现次数。这个在我们前面文章《如何画直方图》中已经介绍了方法，利用value_counts()就可以实现（具体回看文章）但是，现在，我们考虑另外一个场景，我们假如要想统计其中两列元素出现次数呢？举个栗子：在df数据集中，如果我们想统计A、B两列的元素的出现情况，也就是说，得到如下表。从上面的最后一列可以看到，在A...

sql 占比_对比MySQL，学会在Pandas中实现SQL的常用操作

weixin_39842611的博客

12-09

191

本文说明我相信你如果学习了Pandas，就一定是想从事数据分析这样一个行业。既然你想从事数据分析行业，那我就默认你肯定是会Sql，即使你现在不会，你以后也要会。本文初步对比Sql，说明如何使用Pandas中执行各种SQL操作。真的！好像对比起来，学习什么都快了。本文大纲引入相关库和数据读取importnumpyasnpimportpandasaspddf=pd.read_...

spark(7) -- sparkCore(1) -- RDD概念

erainm

10-01

416

1. RDD定义 2. RDD为什么产生 3. RDD特性 4. wordcount案例中的RDD 5. RDD特点

python中size的用法_Python Pandas Series.size用法及代码示例

weixin_33462540的博客

12-29

2173

Python是进行数据分析的一种出色语言，主要是因为以数据为中心的python软件包具有奇妙的生态系统。 Pandas是其中的一种，使导入和分析数据更加容易。Pandas 系列是带有轴标签的一维ndarray。标签不必是唯一的，但必须是可哈希的类型。该对象同时支持基于整数和基于标签的索引，并提供了许多方法来执行涉及索引的操作。Pandas Series.size属性返回给定系列对象的基础数据中的元...

python之外部数据的读取

godlover的博客

11-05

388

外部数据的读取文本文件的读取 Example # 文本文件的读取 import pandas as pd text = pd.read_csv('data_test01.txt', sep=',', names=['序号', '出生年', '月份', '日期', '性别', '职位', '薪资'], skiprows=2,skipfooter=3,engine='python') print(text) 电子表格的读取 Example excel = pd.read_excel('data_t

pandas 中的函数—— .reset_index()

雨化于画

07-31

2万+

话不多说，直接上例子：

python之pandas（二）

sxau_zhangtao的博客

08-06

958

pandas数据文件读取导包操作pandas读取数据方式pandas里的属性数据过滤获取处理pandas缺省值NAN操作dropna操作fillna操作常用的数学统计方法按列求和按行求和按列求中位数按列求平均值按列求最大值/最小值按列求方差按列求标准差相关系数与协方差唯一值、值计数以及成员资格唯一值值计数成员资格层次索引Series层次索引DataFrame层次索引数据文件读取定义：指的是将...

pandas 统计函数

HEHEEH123的专栏

07-05

464

np.random.seed(1234) d1 = pd.Series(2*np.random.normal(size = 100)+3) d2 = np.random.f(2,4,size = 100) d3 = np.random.randint(1,100,size = 100) d1.count() #非空元素计算 d1.min() #最小值 d1.max() #最大值 ...

pandas中size方法_利用pandas进行大文件计数处理的方法

weixin_30596151的博客

12-30

516

Pandas读取大文件要处理的是由探测器读出的脉冲信号，一组数据为两列，一列为时间，一列为脉冲能量，数据量在千万级，为了有一个直接的认识，先使用Pandas读取一些import pandas as pddata = pd.read_table('filename.txt', iterator=True)chunk = data.get_chunk(5)而输出是这样的：Out[4]:332.9778...

100个pandas函数实例详解（一）

qq_45464895的博客

05-24

2287

Hi，我是山月。之前给大家介绍了100个pandas常用函数的汇总，不知道大家有没有印象。从今天开始来我会根据具体的实例来介绍这些函数，希望能帮助大家进行巩固学习。今天给大家介绍的是统计汇总函数里的：min()计算最小值max()计算最大值sum()求和mean()计算平均值count()计数（统计非缺失元素的个数）size()计数（统计所有元素的个数）median()计...

Python Pandas模块介绍