1G内存读取10G文件
方法1(生成器读取):
# 1G内存读取10G的文件
def chunked_file_reader(fp, block_size=1024 * 8):
"""生成器函数:分块读取文件内容"""
while True:
chunk = fp.read(block_size)
# 当文件没有更多内容时,read 调用将会返回空字符串 ''
if not chunk:
break
yield chunk
# 写法2
# from functools import partial
# def chunked_file_reader(file, block_size=1024 * 8):
# """生成器函数:分块读取文件内容,使用 iter 函数"""
# # 首先使用 partial(fp.read, block_size) 构造一个新的无需参数的函数
# # 循环将不断返回 fp.read(block_size) 调用结果,直到其为 '' 时终止
# for chunk in iter(partial(file.read, block_size), ''):
# yield chunk
def count_nine_v3(fname):
count = 0
with open(fname, encoding="utf-8") as fp:
for chunk in chunked_file_reader(fp, 10):
print(chunk) # todo 处理文件内容
count += chunk.count('=') # 计算文件中有多少个"="
return count
# print(count_nine_v3("requesment.txt"))
print(count_nine_v3("oneline.txt"))
方法2:
原文链接
linux下的split 命令(将一个大文件根据行数平均分成若干个小文件)