Python基础 — 文件操作

最新推荐文章于 2022-05-15 10:14:39 发布

啦啦啦昊昊

最新推荐文章于 2022-05-15 10:14:39 发布

阅读量125

点赞数

分类专栏： python学习

本文链接：https://blog.csdn.net/baidu_39638008/article/details/120621299

版权

大文件处理内存管理 mmap 迭代器文件分批读取

关键词由CSDN通过智能技术生成

python学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

1.有一个jsonline格式的文件fifile.txt大小约为10K

def get_lines():
    with open('file.txt', 'rb') as f:
        return f.readlines()

if __name__ == '__main__':
    for e in get_lines():
        process(e)  # 处理每一行数据

现在要处理一个大小为10G 的文件，但是内存只有 4G ，如果在只修改 get_lines 函数而其他代码保持不变的情况下，应该如何实现？需要考虑的问题都有那些？

def get_lines():
    with open('file.txt', 'rb') as f:
        for i in f:
            yield i

最好设置下每次返回的行数，否则读取次数太多。

def get_lines(): 
    l = []
    with open('file.txt','rb') as f: 
        data = f.readlines(60000)
    l.append(data) 
    yield l

Pandaaaa906提供的方法：

from mmap import mmap


def get_lines(fp):
    with open(fp, "r+") as f:
        m = mmap(f.fileno(), 0)
        tmp = 0
        for i, char in enumerate(m):
            if char == b"\n":
                yield m[temp: i+1].decode()
                tmp = i + 1
                

if __name__ == "__main__":
    for i in get_lines("fp_some_huge_file"):
        print(i)

要考虑的问题有：内存只有4G 无法一次性读入 10G 文件，需要分批读入分批读入数据要记录每次读入数据的位置。分批每次读取数据的大小，太小会在读取操作花费过多时间。

https://stackoverflflow.com/questions/30294146/python-fastest-way-to-process-large-fifile

python使用mmap模块实现进程间通信与文件映射

深度分析mmap

2.补充缺失的代码

def print_directory_contents(sPath): 
"""
这个函数接收文件夹的名称作为输入参数
返回该文件夹中文件的路径
以及其包含文件夹中文件的路径
"""
import os
for s_child in os.listdir(s_path):
    s_child_path = os.path.join(s_path, s_child) 
    if os.path.isdir(s_child_path):
        print_directory_contents(s_child_path) 
    else:
        print(s_child_path)

啦啦啦昊昊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python基础 — 文件操作

1.有一个jsonline格式的文件fifile.txt大小约为10Kdef get_lines(): with open('file.txt', 'rb') as f: return f.readlines()if __name__ == '__main__': for e in get_lines(): process(e) # 处理每一行数据现在要处理一个大小为10G的文件，但是内存只有4G，如果在只修改get_lines...
复制链接

扫一扫