pandas统计csv中相同数据出现次数

最新推荐文章于 2024-06-30 18:41:59 发布

Ray Mond

最新推荐文章于 2024-06-30 18:41:59 发布

阅读量8k

点赞数 5

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/Micheal_Yuans/article/details/105869157

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在处理csv数据的过程中可能会遇到统计重复数据的情况，笔者以自己遇到的问题为例，给出一个可以解决此问题的方法。
进行操作的csv文件中含有1700多条数据，其中局部如下图所示：
在这里插入图片描述
目的是计算其中每条数据出现的次数，代码如下：

import pandas as pd


csv = pd.read_csv('../data/all_CE.csv')
counted = csv.groupby(['causes', 'effects']).size()
counted.to_csv("../data/test.csv")	#存入目的地址文件

首先读取csv文件，再对读取数据使用pandas中的数据内部分组函数groupby()，参数为列名或列名的组合，最后通过size()函数得到结果。如果读者有更好的方法，希望可以与笔者进行交流。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ray Mond

关注关注

5
点赞
踩
39

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小练，pandas中统计数据出现的次数

qq_29839055的博客

01-30

3311

import pandas as ps import numpy as np from matplotlib import pyplot as plt # 导入matplotlib模块中的 pyplot类，命名为 plt from matplotlib import font_manager # 导入matplotlib模块中的 font_manager类，设置字体 a = [["a,b,c"], ["a,f,x"], ["x,b,m"], ["a,f,c"], [

Pandas处理CSV文件的常用技巧

Mystra

05-31

2356

Pandas处理CSV文件，分为以下几步：注意：Pandas的读取格式默认是UTF-8，在中文CSV中会报错：修改编码为 GB2312 ，即可，或者忽略encode转义错误，如下： df.info()显示df的基本信息，例如：统计列值出现的次数，如：输出：直接绘制value_counts()的柱形图，参考Pandas - Chart Visualization：柱形图：，筛选特定列值之后，重新赋值，只处理筛选值，也可以写入csv文件。注意：筛选的内外两个df需要相同，否则报错输出，数据量由

3 条评论您还未登录，请先登录后发表或查看评论

pytho统计csv列不同次数_遍历csv文件中的列以查找项目PYTHON的出现次数

weixin_42236063的博客

01-13

465

csv文件(Excel电子表格)中有三列：命名位置值fal6s hlkshf8 alksj0saljg h9ag80a ha8g9alak5f agk1h00 ha035a以此类推(数千个数据点长)列名称和位置中有重复项。在我想知道有多少地方与一个名字相关。在例如，对于名称'algh9g0'，我想计算有多少个地方被标记到它上面我想我需要使用Counter()或defaultdict()。在到目前为...

python数据分析——数据分类汇总与统计

最新发布

qq_74013365的博客

06-30

8201

数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳，然后对这些数据进行统计分析，以便于更好地了解数据的特点和规律。在当今这个大数据的时代，数据分析已经成为了我们日常生活和工作中不可或缺的一部分。Python作为一种高效、简洁且易于学习的编程语言，在数据分析领域展现出了强大的实力。本文将介绍如何使用Python进行数据分类汇总与统计，帮助读者更好地理解和应用数据。首先，我们需要导入一些常用的Python库，如pandasnumpy和matplotlib等。

pandas统计一列中重复值出现的次数df[‘列名‘].value_counts()

zr1213159840的博客

08-05

1万+

现在有一张表，表中的short_channel_id字段包含很多重复的值，现在统计重复值出现的次数表大概是这样的可以看出其中是有重复的值的，现在统计重复的值出现的次数，只需使用下面这一行 df['short_channel_id'].value_counts() 结果如下注意上面是value_counts(),不是value_count() ...

统计csv表格中某一元素的个数（count函数）

LRJ的博客

11-14

3265

我有一个csv表格（data.csv），一共1915列，732行（绝大多数的元素是0，偶尔会有1）。现在我想统计 1 在每一列出现的次数、在整个表中出现的次数。 data[data == 1].count()

python统计csv数据，计算重复数据次数，删除重复值

qq_42940285的博客

10-24

7524

Python读取CSV，将csv数据中的重复值进行统计，统计之后删除重复内容，只保留第一次出现的值 # -- coding: utf-8 -- import os import numpy as np import pandas as pd import time start=time.time() #用于记录程序运行时间 os.chdir('G:\\GISworkspace\\Rprocess') tx=open('level3_river_clipV6.csv') df=pd.read_..

pandas 取出dataframe中重复的所有数据(关于某字段)，并排序，便于比较数据的不同点。

m0_37235489的博客

11-28

1万+

当需要的是DataFrame那些重复数据，尤其是要比较重复数据的异同时，就需要将重复数据提取出来时，再关联原数据，并做排序，进行比较。方法一、主要思路： 1. 采用drop_duplicates对数据去两次重，一次将重复数据保留一个（keep='first），另一次将重复数据全部去除（keep=False）; 2. 合并两者，并去重，得到重复的字段； 3、由重复的字段，得...

pandas统计重复值次数

热门推荐

qq_30309843的博客

04-26

1万+

pandas统计数据项重复值次数和删除转：https://blog.csdn.net/qq_35203425/article/details/80830911 Pandas学习笔记之重复数据统计 https://blog.csdn.net/lansecheng/article/details/75085675 Pandas数据基础（索引、排序、连接、去重、分箱、异常处理） https:...

python pandas csv时间聚合_pandas中简单统计分组聚合函数的介绍

weixin_30028221的博客

01-28

864

说明：这里只是简单的说明了一些pandas中的一些我在毕设中使用到的函数，这个模块的并未具体其他的一些功能并未详细的进行说明。pandas 简单介绍Python语言的Pandas模块是一种高效结构化数据分析工具，它在NumPy的基础上提供了DataFrame数据结构，并以此为核心提供了大量的数据的输入输出、清洗、处理和分析等一些函数pandas 相当于 python 中 excel：它使用表(...

python-统计csv文件的数据出现的次数

ramsey17的博客

09-21

509

1,智能,pjfw,PJFW,56001,PJFW,pjfw,123456,SYCZ,,-2,智能,文,SDZP,56003,SDZZ,test01,123456,ZBHT,订阅,统计csv文件A的列数据，在csv文件B的指定列出现的次数，并写入到新的文件；

python中csv出现的次数_如何使用Python打印同一CSV文件中某个字符串出现的次数？...

weixin_31653453的博客

12-23

1255

我想下面是你要找的代码。逻辑很简单，但也比较长。逻辑解释：首先，您需要打开csv文件来读取并列出列表中的所有元素然后用列表计数法计算出每个列表项的出现次数打开新的csv文件，写入项目并计数每个项目。在当然，也可以用优化的方法来做同样的事情，但是这里有一些代码，它们来得很快。在import csvimport systry :fr = open("mycsv.csv")fw = open("mscs...

pandas 统计数据频率函数value_counts及重复值和其他统计函数

weixin_43668299的博客

08-21

7274

当统计一个数据集里数据出现的频率，次数可以使用value_count value_counts默认参数如下： value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True) 对于Series类型的数据 data.value_counts() 对于DataFrame类型的数据 dat...

Python统计列表中的重复项出现的次数的方法

python基础学习教程

02-27

6968

本文实例展示了Python统计列表中的重复项出现的次数的方法，是一个很实用的功能，适合Python初学者学习借鉴。具体方法如下：对一个列表，比如[1,2,2,2,2,3,3,3,4,4,4,4]，现在我们需要统计这个列表里的重复项，并且重复了几次也要统计出来。方法1： mylist = [1,2,2,2,2,3,3,3,4,4,4,4] myset = set(mylist) #myset是...

Python语言学习之pandas：利用pandas库统计某一列col中各个值出现的次数(降序输出)并绘图可视化

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

03-03

5341

Python语言学习之pandas：利用pandas库统计某一列col中各个值出现的次数(降序输出)并绘图可视化目录利用pandas库统计某一列col中各个值出现的次数(降序输出) 利用pandas库统计某一列col中各个值出现的次数(降序输出) 输出结果

笔记：python统计csv中相同数据出现频次

m0_65029746的博客

11-13

1583

数据处理

用python编写掷100次硬币_连续投掷100万次硬币，出现连续10次正面的次数。

weixin_39650091的博客

02-05

1273

学Python编程的时候碰到了编程模拟随机事件的情况。问题叙述如下：1.硬币总投掷次数为100W次。2.求出现连续10次正面的次数均值。首先想到的是1/2的10次方，1/1024的概率，那么模拟出来的次数大概稳定在1000次左右。然而这里混淆了一个概念，连续出现10次正面为一次事件那么，事件总数不是100W，而是10W.所以应该是100次左右。不过程序模拟出来的最终结果是500次左右。因为连续10...

pandas 计算某字段值连续出现的最大次数

CNian_的博客

11-25

3156

def calc_field_value_times(self, data_pd, field, value): """ 计算连续数据 :param data_pd: 要处理的pandas数据集 :param field: 要计算的字段 :param value: 值 :return: """ # 判断值是否存在 if data_pd.query("%s =...

数据分析--pandas 判断数据是否连续，连续的长度

sfgoidhodfgioji的博客

07-11

2695

在筛选数据的时候，会需要根据数据是否连续，或者连续的长度来作为筛选数据的标准。如果计算连续值的长度用tx-tx.shift()就可以判断连续的标准mk，可以根据自定义需求就行修改在上面的代码中根据数值相同来判定连续...

pythonpandas重复组合数据统计

06-15

你可以使用 pandas 库中的 groupby 和 value_counts 方法来实现重复组合数据的统计。具体步骤如下： 1. 使用 pandas 读取数据，并将需要统计的列设置为索引列（如果有多列需要统计，则设置为多重索引）。 2. 对索引列进行 groupby 操作，得到分组后的数据集。 3. 对分组后的数据集使用 value_counts 方法进行统计，得到每个组合出现的次数。以下是一个示例代码： ```python import pandas as pd # 读取数据，并将需要统计的列设置为索引列 data = pd.read_csv('data.csv', index_col=['col1', 'col2']) # 对索引列进行 groupby 操作，得到分组后的数据集 grouped_data = data.groupby(['col1', 'col2']) # 对分组后的数据集使用 value_counts 方法进行统计 counts = grouped_data.size() print(counts) ``` 其中，'data.csv' 是需要统计的数据集文件名，'col1' 和 'col2' 是需要统计的列的列名。最后输出的 counts 变量即为每个组合出现的次数。