python统计出现次数_python – 快速计算pandas DataFrame中所有值的出现次数

最新推荐文章于 2024-08-18 20:08:34 发布

weixin_39767386

最新推荐文章于 2024-08-18 20:08:34 发布

阅读量1.9k

点赞数

文章标签： python统计出现次数

该篇博客探讨了如何快速计算pandas DataFrame中所有值的出现次数。通过比较使用collections.Counter和自定义的quick_global_count函数，展示了后者在处理大数据时的效率提升。文章最后提出寻找进一步加速此过程的方法。

摘要由CSDN通过智能技术生成

假设我有以下数据：

import pandas as pd

import numpy as np

import random

from string import ascii_uppercase

random.seed(100)

n = 1000000

# Create a bunch of factor data... throw some NaNs in there for good measure

data = {letter: [random.choice(list(ascii_uppercase) + [np.nan]) for _ in range(n)] for letter in ascii_uppercase}

df = pd.DataFrame(data)

我想快速计算数据框中所有值集合中每个值的全局出现.

这有效：

from collections import Counter

c = Counter([v for c in df for v in df[c].fillna(-999)])

但是很慢：

%timeit Counter([v for c in df for v in df[c].fillna(-999)])

1 loop, best of 3: 4.12 s per loop

我认为这个功能可以通过使用一些熊猫的马力来加快速度：

def quick_global_count(df, na_value=-999):

df = df.fillna(na_value)

# Get counts of each element for each column in the passed dataframe

group_bys = {c: df.groupby(c).size() for

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39767386

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python读取Excel一列并计算所有对象出现次数的方法

09-16

本文将详细介绍两种方法来读取Excel文件中的一列，并计算其中所有对象出现的次数。这两种方法都涉及到使用pandas库，一个强大的数据处理库，以及collections库中的Counter类。 **方法一：使用pandas和Counter** ...

python：pandas数值统计，.value_counts()的用法，全DataFrame数据计数

最新发布

zhejie666的博客

08-18

2526

DataFrame是最常用的pandas对象。完成数据读取后，数据就以DataFrame数据结构存储在内存中，但此时并不能直接开始统计分析工作，需要使用DataFrame的属性与方法对数据的分布、大小等基本的数据状况有一个了解。只有对数据基本状况有了一个深度的了解，才能够依据数据的状况，进行量身定制的统计分析。

（Python）统计列表中连续、重复次数最多的元素出现的次数

Hello_Mr_Zheng的博客

04-29

1万+

当然这题还可以有多重演变形式，如统计某元素连续出现的最大次数，连续出现次数最大的元素等等。思路大致一样： li = [1, 2, 3, 4, 2, 2, 2, 5, 2, 1, 1, 1, 1, 2, 3] max_time = 0 # 已知最大连续出现次数初始为0 cur_time = 1 # 记录当前元素是第几次连续出现 pre_element = None # 记录上一个元素是...

python笔记：用apply()函数对dataframe进行批量操作

gene博客

09-11

6876

def convertRate(row): if pd.isnull(row): return 1.0 elif ':' in str(row): rows = row.split(':') return 1.0 - float(rows[1])/float(rows[0]) else: return floa...

【Python】DataFrame按照规则批量修改某列的数据

J小白的博客

08-30

1万+

在使用Python进行数据分析时，我们经常会看一个数据的分布，然后对数据进行处理。比如说有一个场景：以下数据是某个产品的提前预定期： import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import seaborn as sns import numpy as np %matplotl...

python基础教程：pandas DataFrame 行列索引及值的获取的方法

12-22

pandas DataFrame是二维的,所以,它既有列索引,又有行索引上一篇里只介绍了列索引: import pandas as pd df = pd.DataFrame({'A': [0, 1, 2], 'B': [3, 4, 5]}) print df # 结果: A B 0 0 3 1 1 4 2 2 5 行索引...

Numpy及Pandas_numpy_pandas_dataframe_python_

09-30

Numpy和Pandas是Python中两个非常重要的数据分析和处理库，它们在科学计算领域有着广泛的应用。Numpy主要处理多维数组对象，而Pandas则在此基础上构建了更高级的数据结构，如DataFrame，用于进行数据清洗、分析和...

pandas官方文档中文版_pandas_pandas文档_pandas中文_python_

09-29

Pandas是Python编程语言中的一个强大数据分析工具，它提供了高效的数据结构，如DataFrame和Series，使得数据清洗、转换、分析变得简单易行。Pandas的设计目标是使数据处理对用户来说直观且快速，同时保持良好的性能...

pandas官方文档中文版_python教程_pandas中文API_pandas中文_

10-02

Pandas是Python编程语言中的一个强大且广泛使用的数据分析库。它为数据清洗、处理、分析和可视化提供了一系列高效工具，使得数据科学家和分析师能够轻松地进行数据操作。Pandas中文API文档是学习和掌握这个库的重要...

Python- 关于重复字段的一些统计

weixin_39419220的博客

11-12

1772

Dataframe统计某两个字段重复的次数&重复次数最大值的索引&索引所对应的其他字段值提取

如何统计DataFrame中各列数据分类的各个不同数据出现的次数

weixin_35749440的博客

12-23

3833

可以使用 value_counts 函数来统计每个不同数据在数据列中出现的次数。例如，假设有一个名为 df 的 DataFrame，其中包含一列名为 'col'。要统计 'col' 列中各个不同数据的出现次数，可以使用以下代码： counts = df['col'].value_counts() 此代码将返回一个由各个数据和它们在 'col' 列中出现的次数组成的 Series。例如，假设...

Python 统计列表中各元素出现的次数

weixin_37198422的博客

07-19

346

除了中提到的方法还有简单的print(lou_list.count('-1'))

Python 统计文本中每个出现的次数

xzxbc的博客

01-05

2376

-*- # coding = utf-8 -*- import collections import os with open（abc.text）as file1：#打开文本文件 str1=file1.read().split(' ')#将文章按照空格划分开 print ("原文本：\n %s",str1)#导出原文本 print("各单词出现的次数: \n %s",collections.Counter(str1))#统计各个单词出现的次数 print collections.Counter

python统计表格中特定国家出现次数_Python探索性数据分析，这样才容易掌握

weixin_35786588的博客

02-04

730

「Python数据之道」导语理解你的数据的最佳方法是花时间去研究它。Python探索性数据分析教程介绍每个数据科学家都必须掌握的最重要的技能之一是正确研究数据的能力。彻底的探索性数据分析 (EDA， Exploratory Data Analysis) 是必要的，这是为了确保收集数据和执行分析的完整性。本教程使用的示例是对历史上 SAT 和 ACT 数据的探索性分析，以比较不同州 SAT 和 AC...

python统计三国演义中人物出现的频次

呆萌小新@渊洁的博客

11-12

6956

【代码】python统计三国演义中人物出现的频次。

python中统计次数的方法（出现次数、总数）

王大兴的王兴的博客

05-27

2万+

python中统计次数的方法（循环的次数或数字出现次数、总数） 1、统计循环输出的总数 # 求1--N之间可以被7整除的数的总个数。 def count(): N=int(input("请输入整数：")) b=0 #用于统计循环的个数 for a in range(1,N+1): if a%7==0: b+=1 #每次输出一个能整除7的a，那么循环统计的b就+1 print(a,end="

python dataframe筛选日期_python – 在Pandas DataFrame中查找连续日期组

05-13

你可以使用 Pandas 中的 `pd.date_range` 函数创建日期范围，然后使用 `isin` 函数将其与 DataFrame 中的日期列进行比较，以查找连续日期组。以下是一个示例代码： ```python import pandas as pd # 创建示例 DataFrame df = pd.DataFrame({'date': pd.date_range('2021-01-01', '2021-01-15')}) # 创建待查找的日期范围 date_range = pd.date_range('2021-01-05', '2021-01-10') # 查找连续日期组 continuous_dates = df['date'].isin(date_range) & \ df['date'].shift(-1).isin(date_range) # 输出结果 print(df[continuous_dates]) ``` 在此示例中，我们首先创建了一个示例 DataFrame，其中包含从 2021 年 1 月 1 日到 2021 年 1 月 15 日的日期。然后，我们使用 `pd.date_range` 函数创建了一个待查找的日期范围。接下来，我们使用 `isin` 函数将其与 DataFrame 中的日期列进行比较，并使用 `shift` 函数将其与下一个日期进行比较，以找到连续日期组。最后，我们打印出结果，即包含连续日期组的 DataFrame。