python无法处理特别大的数据文件_Python 大文件处理

最新推荐文章于 2023-09-16 20:15:00 发布

weixin_39971132

最新推荐文章于 2023-09-16 20:15:00 发布

阅读量510

点赞数

文章标签： python无法处理特别大的数据文件

非内存资源可以使用with

在python中逐行读取大文件

在我们日常工作中，难免会有处理日志文件的时候，当文件小的时候，基本不用当心什么，直接用file.read()或readlines()就可以了，但是如果是将一个10G大小的日志文件读取，即文件大于内存的大小，这么处理就有问题了，会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。

对file对象进行迭代处理：

with open('file_name', 'r') as file:

for line in file:

print line

优点:

with语句，文件对象在执行完代码块退出后自动关闭文件流,文件读取数据发生异常，进行异常捕获处理

对文件对象进行迭代时，在内部，它会缓冲IO(针对昂贵的IO操作进行优化)和内存管理，所以不必担心大文件。

这才是 Pythonci 最完美的方式，既高效又快速

缺点：

每一行的数据内容不能大于内存大小，否则就会造成MemoryError

使用yield

正常情况使用上面这种方式就可以了，But,如果遇到整个文件只有一行，而且按照特定的字符进行分割,上面这种方式则不行了，这时候yield就非常有用了。

举个栗子,log的形式是这样子的。

2018-06-18 16:12:08,289 - main - DEBUG - Do something{|}…..

以{|}做为分割符。

def read_line(filename, split, size):

with open(filename, 'r+') as file:

buff = ''

while True:

while split in buff:

position = buff.index(split)

yield buff[:position]

buff = buff[(position +len(split)):]

chunk = file.read(size)

if not chunk:

yield buff

break

buff = buff +chunk

优点:

不在限制每行数据的大小,即使整个大文件只有一行。

缺点：

速度比上面这种方式要慢。

解析一下：

首先：定义一个缓冲区buff

循环判断，如果split分割符在缓冲区buff，则进行查找分割符出现的位置，并yield回去。

将buff更新，继续第二步

如果split分割符不在缓冲区buff，则read(size)个字符

如果chunk为空，则跳出循环，否则更新buff，继续第二步

所以我们需要使用那种方式呢，一般来说使用用第一种就可以了。碰到只有一行的数据，而且数据特别大的，就要考虑一下你是不是得罪那个程序员了，故意给你这样一个文件。

读取大几G的大文件，可以利用生成器 generator

方法一：将文件切分成小段，每次处理完小段，释放内存

def read_in_block(file_path):

BLOCK_SIZE=1024

with open(file_path,"r") as f:

while True:

block =f.read(BLOCK_SIZE) #每次读取固定长度到内存缓冲区

if block:

yield block

else:

return #如果读取到文件末尾，则退出

for block in read_in_block(file_path):

print block

// 这个方法，速度很快（只有3s)，但有个问题，若满足了1024时，会将正好在1024位置的数据切开，虽然每个block都是str, 但无法直接得到每行的id，只能再切分。

def readInChunks(fileObj, chunkSize=4096):

"""

Lazy function to read a file piece by piece.

Default chunk size: 4kB.

"""

while 1:

data = fileObj.read(chunkSize)

if not data:

break

yield data

f = open('bigFile')

for chuck in readInChunks(f):

#do_something(chunk)

f.close()

python 实现大文件md5值计算

python 中使用hashlib模块实现常见摘要算法，如md5、sha1等。

hashlib.md5(文件内容)实现了对文件的md5计算，注意参数为文件内容而不是文件路径。

import hashlib

with open('2.jpeg','rb') as f:

data = f.read()

d5 = hashlib.md5(data)

print(d5.hexdigest())

md5()返回的是md5对象，不是md5值，通过hexdigest()方法获取md5值。

md5计算时文件数据是放在内存中的,当我们计算一个大文件时，可以用update方法进行分步计算，每次添加部分文件数据进行计算，减少内存占用。

import hashlib

d5 = hashlib.md5()

with open('3.jpeg','rb') as f:

while True:

data = f.read(2024)

if not data:

break

d5.update(data) #update添加时会进行计算

print(d5.hexdigest()) #打印结果

weixin_39971132

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python无法处理特别大的数据文件_Python 大文件处理

非内存资源可以使用with在python中逐行读取大文件在我们日常工作中，难免会有处理日志文件的时候，当文件小的时候，基本不用当心什么，直接用file.read()或readlines()就可以了，但是如果是将一个10G大小的日志文件读取，即文件大于内存的大小，这么处理就有问题了，会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。对file对象进行迭代处理：with ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。