读取超过内存大小的文件的解决办法

最新推荐文章于 2024-09-23 18:27:36 发布

weixin_33743880

最新推荐文章于 2024-09-23 18:27:36 发布

阅读量3.1k

点赞数

文章标签： java python c/c++

原文链接：http://www.cnblogs.com/zzliu/p/10651297.html

版权

问题

现在考虑有一个jsonline 格式的文件file.txt 大小约为10K，之前处理文件的代码如下所示

def get_lines():
    l = []
    with open('file.txt', 'rb') as f:
        for eachline in f:
            l.append(eachline)
    return l


if __name__ == '__main__':
    for e in get_lines():
        process(e)   # 处理每一行数据

现在要处理一个大小为10G 的文件，但是内存只有4G，如果在只修改get_lines 函数而其他代码保持不变的情况下，应该如何实现？需要考虑的问题都有哪些？

需要考虑的问题：

文件大小超过内存大小，需要分批读取
需要记录每次读取结束位置，以便下次读取

解决办法

使用yield将get_lines变成一个生成器函数，由于生成器只有在需要的时候才取值，所以不会造成内存占用过高，生成器的另一个特性是能够保存状态，因而可以很好地解决上述两个问题

def get_lines():
    l = []
    with open('file.txt', 'rb') as f:
        data = f.readlines(10000)
        l.append(data)
    yield l

补充：如果不限制只修改get_lines函数，对于大文件，在Linux下我们还可以通过split方法将大文件切割成很多小文件，然后分别读取这些小文件。

转载于:https://www.cnblogs.com/zzliu/p/10651297.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33743880

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

完美解决java读取excel内存溢出问题.rar

06-06

在处理大文件时，POI会将整个工作簿加载到内存中，当文件过大时，就可能导致`java.lang.OutOfMemoryError`。要解决这个问题，我们可以采取以下策略： 1. **流式处理（Streaming User Model API）**：POI提供了...

PHP超低内存遍历目录文件和读取超大文件的方法

10-17

为了解决这一问题，本文介绍了一种超低内存消耗的遍历目录文件和读取大文件的方法。使用的关键技术包括PHP的生成器（yield）和SplFileObject类。首先，我们来关注遍历目录文件的方法。在PHP中，通常使用glob或者...

参与评论您还未登录，请先登录后发表或查看评论

如何读取比机器内存大的文件（内存4G，文件 8G，读取大文件）？

wohu1104的专栏

03-09

3100

我们假设数据可以一行一行地处理，并且数据之间的没有相关性，那么我们有两种方法读取该文件。 1. 使用生成器 yield 逐行读取到内存 def read_file(filename): with open(filename, 'r', encoding='utf-8') as f: for line in f: yield line line_co...

大文件读取（超过内存）

zyt_coder的专栏

03-16

2591

package com.zyt.interview;import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException

Python 如何处理大文件的读取

最新发布

chusheng1840的博客

09-23

1189

本文介绍了多种在 Python 中处理大文件的技巧和方法，包括逐行读取、按块读取、使用生成器以及处理二进制文件的方法。通过合理选择合适的文件读取方式，我们可以高效处理超出内存限制的大文件。处理大文件的核心思想是避免将整个文件一次性加载到内存中，而是通过逐步读取、分块处理等技术来降低内存消耗。这些方法在处理大规模数据集、日志文件或二进制文件时非常有用。

电脑内存过大，如何处理

xuxudeta的博客

10-11

969

一：查看初始占用内存的软件使用杀毒软件进行全盘杀毒，防止有毒软件侵入，导致内存消耗。全盘垃圾清除进行启动项管理。关闭不必要的启动项。 https://jingyan.baidu.com/article/4ae03de3b635253eff9e6b91.html 二：进行磁盘管理 1.打开C盘 2.点击磁盘清理进入选择要删除的文件。点击确定。清理完成后点击确定退出。三：进行C盘文件清除 https://baijiahao.baidu.com/s?id=1635471.

慎用 readFileSync 读取大文件，教你一招如何优雅处理大文件读取

公众号：前端蛋卷

07-23

429

会占据服务器大量的内存，即使读取的文件比较小，但是如果遇到用户访问剧增的时候，大规模读取小文件也会使得服务器内存长时间处于高位。通过 hyperfine 工具我们可以对这两个脚本进行基准测试，我们可以通过基准测试数据可以看出，同样是同步获取。去读取文件有很多方法，今天我们介绍一种不是很常见的方式去读取。接下来我们通过一个案例来比较这两种方式在读取同一文件速度上的差异。常见使用方法是采用回调的方式，也可以使用本案例中的。会将文件读取在内存中，如果遇到了文件很大时，文件路径：要读取的文件的路径。

文本超出容器

a13697013326的博客

07-26

294

今天遇到了一个超出文本行的问题，如图: 就是文本超出div容器，解决方法：在容器的属性上加入一条: word-wrap:break-word; 完美解决

关于Poi读取Excel引发内存溢出问题的解决方法

08-29

如果无法切换到事件模型，可以尝试分块读取大文件。例如，每次读取一定数量的行或特定工作表，处理完后释放相关资源。 ```java FileInputStream fis = new FileInputStream(file); XSSFWorkbook workbook = new ...

Python多进程分块读取超大文件的方法

09-21

### Python多进程分块读取超大文件的方法在处理大数据时，经常遇到需要读取超大文件（例如几个GB甚至TB级别的文件）的需求。由于内存限制，直接将整个文件加载到内存中进行处理通常是不可行的。因此，采用分块读取...

强悍的Python读取大文件的解决方案

09-19

首先，`read()`方法是Python中最基本的文件读取接口，它会一次性读取文件的全部内容，对于小文件可能很适用，但对于大文件则会导致内存不足。例如，尝试读取一个3GB的nginx日志文件，`read()`方法会引发`MemoryError...

文本溢出处理

06-21

169

网页设计时经常发生文本内容超出容器范围的问题，在内容较多时多采用分页效果，在内容较少时则采用一些普通的文本溢出处理。常见的文本溢出处理方式有： 1.简单裁切 2.简单隐藏 3.隐藏并显示省略号 4.使用滚动条　div.hide{ 　　　　overflow:hidden; /*简单隐藏*/ 　　} 　　div.s...

关于文本溢出

qq_42042927的博客

04-26

387

受网页布局空间的影响，很多时候在有限的空间内并不能完全显示所有的内容，而当实际内容超出实际存放的时候，就是溢出。此时，需要对溢出的内容做相应的处理。我们经常能在网页中看到一段文字过长出现省略号的效果其中多行文本只能通过JS实现，而单行文本可直接通过CSS代码实现以下示例即为单行文本实现省略效果的说明首先我们需要4个属性配合使用：1、width:200px;设置宽度，文本超出多少猜隐藏2、white...

大文件操作及处理（超过500M）

10-29

1435

大文件大内存操作及处理（超过500M）

python 文件大于内存怎么读取

weixin_46260870的博客

06-01

1274

最近处理文本文档时（文件约2GB大小），出现memoryError错误和文件读取太慢的问题，后来找到了两种比较快Large File Reading 的方法，本文将介绍这两种读取方法。我们谈到“文本处理”时，我们通常是指处理的内容。Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法：.read()、.readline()和.readlines()。每种方法可以接受一个变量以限制每次读取的数据量，但它们通常不使用变量。.read()每次读取整个文件，它通...

易语言多线程读取大文本文件

07-23

在处理大数据量的文本文件时，单线程读取可能会导致程序响应慢或者占用过多系统资源，因此，采用多线程技术进行读取就显得尤为重要。在“易语言多线程读取大文本文件”这个主题中，核心概念是多线程和文件I/O操作...

poi大量数据读取gc内存溢出解决方案

05-11

poi读取大量数据会造成gc内存溢出的报错,由于垃圾回收机制无法将大量的对象及时的回收,而这些对象又会保存在内存中,会导致内存不够用的情况,这时候我们就需要使用新的方法,读取为cvs即可.此解决方案可支持千万数据的...