python处理大文本数据_python 处理大数据之数据读取

python 处理大数据之数据读取

发布时间:2018-09-17 23:00,

浏览次数:451

, 标签:

python

1 参考1:python读取GB级的文本数据,防止memoryError

https://blog.csdn.net/accumulate_zhang/article/details/65920652

Preliminary

我们谈到“文本处理”时,我们通常是指处理的内容。Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法:

.read()、.readline() 和 .readlines()。每种方法可以接受一个变量以限制每次读取的数据量,但它们通常不使用变量。 .read()

每次读取整个文件,它通常用于将文件内容放到一个字符串变量中。然而 .read()

生成文件内容最直接的字符串表示,但对于连续的面向行的处理,它却是不必要的,并且如果文件大于可用内存,则不可能实现这种处理。下面是read()方法示例:

try:

f = open('/path/to/file', 'r')

print f.read()

finally:

if f:

f.close()

调用read()会一次性读取文件的全部内容,如果文件有10G,内存就爆了,所以,要保险起见,可以反复调用read(size)方法,每次最多读取size个字节的内容。另外,调用readline()可以每次读取一行内容,调用readlines()一次读取所有内容并按行返回list。因此,要根据需要决定怎么调用。

如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果是配置文件,调用readlines()最方便:

for line in f.readlines():

process(line) #

Read In Chunks

处理大文件是很容易想到的就是将大文件分割成若干小文件处理,处理完每个小文件后释放该部分内存。这里用了iter & yield:

def read_in_chunks(filePath, chunk_size=1024*1024):

"""

Lazy function (generator) to read a file piece by piece.

Default chunk size: 1M

You can set your own chunk size

"""

file_object = open(filePath)

while True:

chunk_data = file_object.read(chunk_size)

if not chunk_data:

break

yield chunk_data

if __name__ == "__main__":

filePath = './path/filename'

for chunk in read_in_chunks(filePath):

process(chunk) #

Using with open()

with语句打开和关闭文件,包括抛出一个内部块异常。for line in

f文件对象f视为一个迭代器,会自动的采用缓冲IO和内存管理,所以你不必担心大文件。

#If the file is line based

with open(...) as f:

for line in f:

process(line) #

Conclusion

在使用python进行大文件读取时,应该让系统来处理,使用最简单的方式,交给解释器,就管好自己的工作就行了。

参考2:利用python处理两千万条数据的一些经验

https://blog.csdn.net/ZHANGJING199402/article/details/80269632

先打开目标文件,写入列名,再打开原始文件,按行读取,按照条件判断这一行是否为“脏”数据,不是的话再按照上面表格里的要求进行处理,之后按行写入目标文件,这样一来,电脑内存占用率下降,电脑也就不会卡了,最后再将初步处理过的文件利用pandas打开,利用其中的DataFrame数据结构的方法进行去重,两千万条的数据五分钟之内处理完成,以下为源代码:

import csv rows=[] with

open(r'C:\Users\Hanju\Desktop\uploadPortal(5).csv',"w", newline='') as

_csvfile: writer = csv.writer(_csvfile) #先写入columns_name

writer.writerow(["Dev_mac","Action","User_mac","User_mac_head","Bssid","WiFi","Time","Date"])

i=0 with open(r'D:\UploadPortalData\uploadPortal (5).csv',encoding='UTF-8') as

csvfile: readCSV=csv.reader(csvfile,delimiter=',') for row in readCSV:

if(len(row)!=8): continue row1=[] i+=1 row1.append(row[0].replace(':','')[-5:])

if row[2]=='auth': row1.append('1') elif row[2]=='deauth': row1.append('2')

elif row[2]=='portal': row1.append('3') elif row[2]=='portalauth':

row1.append('4') row1.append(str(row[3].replace(':','')))

row1.append(str(row[3].replace(':','')[0:6])) if row[0]==row[4]:

row1.append('2') else: row1.append('5') if 'City-WiFi-5G' in row[5]:

row1.append('2') elif 'City-WiFi' in row[5]: row1.append('1') else:

row1.append('0') row1.append(float(row[6])/86400.0-2.0/3.0+719530.0)

row1.append(row[7]) writer.writerow(row1) print('Done') print(i) import pandas

as pd df=pd.read_csv(r'C:\Users\Hanju\Desktop\uploadPortal(5).csv')

#print(df.head()) #print(df.tail()) print(df.shape)

New_df=df.drop_duplicates(['Action','User_mac','Time']) print(New_df.shape)

#print(New_df.head()) #print(New_df.tail())

New_df.to_csv(r'C:\Users\Hanju\Desktop\uploadPortal(5)_Final.csv') print('Done')

参考3:

解决的方法:

1)使用SSCursor(流式游标),避免客户端占用大量内存。(这个cursor实际上没有缓存下来任何数据,它不会读取所有所有到内存中,它的做法是从储存块中读取记录,并且一条一条返回给你。)

2)使用迭代器而不用fetchall,即省内存又能很快拿到数据。

import MySQLdb.cursors conn = MySQLdb.connect(host='ip地址', user='用户名',

passwd='密码', db='数据库名', port=3306, charset='utf8', cursorclass =

MySQLdb.cursors.SSCursor) cur = conn.cursor() cur.execute("SELECT * FROM

bigtable"); row = cur.fetchone() while row is not None: do something row =

cur.fetchone() cur.close() conn.close()

需要注意的是,

1.因为SSCursor是没有缓存的游标,结果集只要没取完,这个conn是不能再处理别的sql,包括另外生成一个cursor也不行的。

如果需要干别的,请另外再生成一个连接对象。

2. 每次读取后处理数据要快,不能超过60s,否则mysql将会断开这次连接,也可以修改 SET NET_WRITE_TIMEOUT = xx

来增加超时间隔。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值