python pandas csv时间聚合_python – pandas groupby与sum()在大型csv文件上？

最新推荐文章于 2023-01-27 17:17:56 发布

weixin_39740283

最新推荐文章于 2023-01-27 17:17:56 发布

阅读量192

点赞数

文章标签： python pandas csv时间聚合

首先,您可以通过读取带有

usecols的csv选择唯一常量列表 – usecols = [‘id’,’col1′].然后通过块读取csv,通过id和groupby的子集读取concat块.

better explain.

如果使用列col1更好,请更改constants = df [‘col1’].unique().tolist().这取决于您的数据.

或者你只能读一列df = pd.read_csv(io.StringIO(temp),sep =“,”,usecols = [‘id’]),这取决于你的数据.

import pandas as pd

import numpy as np

import io

#test data

temp=u"""id,col1,col2,col3

1,13,15,14

1,12,15,13

2,18,15,13

3,14,15,13

3,14,185,213"""

df = pd.read_csv(io.StringIO(temp), sep=",", usecols=['id', 'col1'])

#drop duplicities, from out you can choose constant

df = df.drop_duplicates()

print df

# id col1

#0 1 13

#2 1 12

#3 2 18

#9 3 14

#for example list of constants

constants = [1,2,3]

#or column id to list of unique values

constants = df['id'].unique().tolist()

print constants

#[1L, 2L, 3L]

for i in constants:

iter_csv = pd.read_csv(io.StringIO(temp), delimiter=",", chunksize=10)

#concat subset with rows id == constant

df = pd.concat([chunk[chunk['id'] == i] for chunk in iter_csv])

#your groupby function

data = df.reset_index(drop=True).groupby(["id","col1"], as_index=False).sum()

print data.to_csv(index=False)

#id,col1,col2,col3

#1,12,15,13

#1,13,30,28

#id,col1,col2,col3

#2,18,90,78

#id,col1,col2,col3

#3,14,215,239

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39740283

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python 用pandas处理csv，dataframe，groupby等

huangyixian2的博客

03-28

2167

这两天用Python写了个小程序，原理实现部分不难，但是对python语言不熟，过程遇到挺多困难的。而且最后发现评估原则有些没用实现到的。考虑到时间宝贵，就以后再做吧。代码就不贴了，把一些问题解决方案记录一下： 1.读取csv。注意编码，header指定了表头位置，如果前几行是空行是不用算进来的。比如我的表里表头在第7行，但其实表头前面只有2行是有内容的。 import pandas a...

python pandas csv时间聚合_Python通过pandas操作excel常用功能

weixin_39648430的博客

12-17

193

参与评论您还未登录，请先登录后发表或查看评论

Python编程从入门到实践三(画图\读操作csv文件\zip & groupby)

weixin_42277616的博客

08-02

788

chap 15

[数据处理] Pandas利用groupby拆分csv

摩登都市天空---专栏

06-29

3950

关键步骤： 1、利用pandas的pd.read_csv读取csv内容到pandas dataframe结构里； 2、利用groupby按共同元素聚合； 3、提取groupby后的dataframe对象信息并输出。 df=pd.read_csv(pathDir+"//"+"xx.csv",sep=",",engine='python',header=0) grouped=df.groupby(by="apply_ym") for value,group in grouped: filen

利用groupby对dataframe分组并写入csv文件

qq_34223654的博客

08-19

4181

groupby: 实现dataframe某一列相等的行的其他列的聚合（分组） groupby分组后，通过apply(list)可以把column_index（1个值）对应的column_1（1个或多个值）变为list格式，输出为len(column_index)个( 一个index+1个list)的组合，组合类型为array result_groupby=df['column_1'].groupby(df['column_index']).apply(list) 若要将groupby的结果写入csv文件：

详解python中groupby函数通俗易懂

09-16

主要介绍了详解python中groupby函数通俗易懂，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

python pandas csv时间聚合_Python经过pandas操做excel经常使用功能

weixin_39752157的博客

03-01

192

python pandas csv时间聚合_pandas中简单统计分组聚合函数的介绍

weixin_30028221的博客

01-28

859

说明：这里只是简单的说明了一些pandas中的一些我在毕设中使用到的函数，这个模块的并未具体其他的一些功能并未详细的进行说明。pandas 简单介绍Python语言的Pandas模块是一种高效结构化数据分析工具，它在NumPy的基础上提供了DataFrame数据结构，并以此为核心提供了大量的数据的输入输出、清洗、处理和分析等一些函数pandas 相当于 python 中 excel：它使用表(...

python pandas csv时间聚合_利用Python进行数据分析：【Pandas】（Series+DataFrame）

weixin_32742203的博客

03-01

583

一、pandas简单介绍1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。3、pandas的主要功能--具备对其功能的数据结构DataFrame、Series--集成时间序列功能--提供丰富的数学运算和操作--灵活处理缺失数据4、安装方法：pip install pandas5、引用方法：import pandas as pd二、SeriesSeri...

pandas官方文档中文版_pandas_pandas文档_python_

10-02

使用`groupby()`函数，我们可以对DataFrame按列进行分组，并对每个组应用聚合函数如`sum()`, `mean()`, `count()`等。这在统计分析和数据探索中非常常用。 **7. 时间序列分析** Pandas内置了对时间序列数据的良好...

pandas官方文档中文版_pandas_pandas文档_pandas中文_python_

09-29

- **聚合与分组**：`groupby()`函数可以对数据进行分组，然后应用聚合函数如`sum()`, `mean()`, `count()`等。 **5. 数据合并与连接** Pandas提供了多种方式合并数据，如`merge()`（类似于SQL的JOIN操作）、`...

pandas官方文档中文版_python教程_pandas中文API_pandas中文_

10-02

通过`groupby()`函数，可以基于一个或多个列对数据进行分组，然后对每个组执行聚合操作（如`sum()`, `mean()`, `count()`）。这在分析分组统计数据时非常有用。 **7. 数据透视表** Pandas的`pivot_table()`函数...

利用python进行数据分析——使用groupby机制对pandas对象类的数据进行聚合与分组操作

逐梦er的博客

06-11

9875

文章目录数据聚合与分组操作一.GroupBy机制1.1遍历各分组1.2选取一列或所有列的子集1.3 通过字典或Series进行分组1.4 通过函数进行分组1.5根据索引层级分组二. 数据聚合2.1面向列的多函数应用2.2返回不含行索引的聚合数据10.3 应用(apply)：通用“拆分－应用－合并”3.1禁用分组索引3.2分位数和桶分析3.3示例：用特定于分组的值填充缺失值3.4 示例：随机采样和排列3.5 示例：分组加权平均数和相关系数3.6 示例：组级别的线性回归四.透视表和交叉表4.1交叉表：cross

Python pandas.groupby一些用法

gongzairen的博客

12-16

623

python groupby介绍，pandas groupby使用，groupby求均值mean()、统计个数size()

#Python笔记-groupby 的使用

panyaoyao的博客

01-02

132

Python 学习笔记1-- groupby 的使用

【通过unique()、describe()和groupby() 统计csv文件中的数据】

qq_45186086的博客

06-12

1067

通过详细介绍unique()、describe()和groupby()的用法，实现对csv文件中的数据进行统计操作

Python 分组处理

rqgxy的博客

12-03

8970

在日常数据分析时，经常会遇到需要按列分组 (groupby) 的任务，如计算某公司各部门的人数，计算各部门男女平均工资，计算不同年代的员工的平均工资等等。在进行这类运算时，Pandas 提供了 groupby 函数，大多数问题它都可以解决，但有一些问题使用 groupby 函数会略显麻烦，下面我们就这些问题展开细致的讨论。 groupby 是 pandas 中非常重要的一个函数, 主要用于数据分类和聚合计算. 其思想是“split-apply-combine”（拆分 - 应用 - 合并），如下图：

python--pandas数据聚合和分组运算

m0_52484011的博客

01-27

2964

python--pandas数据聚合和分组运算

基于java+Face++人脸识别项目前端采用android实现.zip