利用pandas进行大文件计数处理

最新推荐文章于 2024-04-16 22:22:29 发布

CaspianR

最新推荐文章于 2024-04-16 22:22:29 发布

阅读量9.1k

点赞数 2

分类专栏： Python学习文章标签： pandas python

本文链接：https://blog.csdn.net/renjunsong0/article/details/53107091

版权

本文介绍如何利用Pandas的chunksize特性读取和处理大文件，特别是涉及DataFrame的基本操作、数据存储和索引，以及DataFrame的运算和一些函数方法。通过示例展示了在大文件中查找峰值并行处理的优化策略，提高数据处理效率。

摘要由CSDN通过智能技术生成

Pandas读取大文件

  要处理的是由探测器读出的脉冲信号，一组数据为两列，一列为时间，一列为脉冲能量，数据量在千万级，为了有一个直接的认识，先使用Pandas读取一些

import pandas as pd
data = pd.read_table('filename.txt', iterator=True)
chunk = data.get_chunk(5)

而输出是这样的：
Out[4]:
332.977889999979 -0.0164794921875
0 332.97790 -0.022278
1 332.97791 -0.026855
2 332.97792 -0.030518
3 332.97793 -0.045776
4 332.97794 -0.032654

DataFram基本用法

这里，data只是个容器，pandas.io.parsers.TextFileReader。
使用astype可以实现dataframe字段类型转换
输出数据中，每组数据会多处一行，因为get_chunk返回的是pandas.core.frame.DataFrame格式，而data在读取过程中并没有指定DataFrame的columns，因此在get_chunk过程中，默认将第一组数据作为columns。因此需要在读取过程中指定names即DataFrame的columns。

import pandas as pd
data = pd.read_table('filename.txt', iterator=True， names=['time', 'energe'])
chunk = data.get_chunk(5) 
data['energe'] = df['energe'].astype('int')

输出为
Out[6]:

index	time	energe
0	332.97789	-0.016479
1	332.97790	-0.022278
2	332.97791	-0.026855
3	332.97792	-0.030518
4	332.97793	-0.045776

DataFram存储和索引

这里讲一下DataFrame这个格式，与一般二维数据不同（二维列表等），DataFrame既有行索引又有列索引，因此在建立一个DataFrame数据是
DataFrame(data, columns=[‘year’, ‘month’, ‘day’],
index=[‘one’, ‘two’, ‘three’])

	year	month	day
0	2010	4	1
1	2011	5	2
2	2012	6	3
3	2013	7	5
4	2014	8	9

而pd.read_table中的names就是指定DataFrame的columns,而index自动设置。
而DataFrame的索引格式有很多

类型	说明	例子
obj[val]	选取单列或者一组列
obj.ix[val]	选取单个行或者一组行
obj.ix[:,val]	选取单个列或列子集
obj.ix[val1, val2]	同时选取行和列
reindex方法	将一个或多个轴匹配到新索引
x