Python最快的方式来读取大文本文件（几GB）

最新推荐文章于 2024-09-17 23:15:58 发布

aorbu28802

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量684

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/pythonzhichan/p/11428053.html

版权

我有一个大文本文件（约7 GB）。我正在寻找是否存在阅读大文本文件的最快方法。我一直在阅读有关使用多种方法作为读取chunk-by-chunk以加快进程的过程。

例如，effbot建议

# File: readline-example-3.py

file = open("sample.txt") while 1: lines = file.readlines(100000) if not lines: break for line in lines: pass # do something**strong text**

为了每秒处理96,900行文本。其他作者建议使用islice（）

from itertools import islice

with open(...) as f: while True: next_n_lines = list(islice(f, n)) if not next_n_lines: break # process next_n_lines

list(islice(f, n))将返回n文件的下一行列表f。在循环中使用它将为您提供大量n行的文件

解决方案

with open(<FILE>) as FileObj: for lines in FileObj: print lines # or do some other thing with the line...

将在此时读取一行内存，并在完成后关闭文件...

本文首发于Python黑洞网，博客园同步更新

转载于:https://www.cnblogs.com/pythonzhichan/p/11428053.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aorbu28802

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python快速读取超大文件

夜空下的凝视

04-11

1万+

方法一：测试文件共6862646行，79.3M大小，耗时6.7秒。缺点：每一行数据内容不能大于内存大小(一般不会)，否则就会造成MemoryError。 import time print("开始处理...") start = time.time() file = r'e:\Python\mypy\搜狗词库\sogou_jianhua_new.txt' with open(file, 'rb...

快速提示：如何使用Python读取超大文本文件

代码教主

06-12

4235

让我直接开始问，我们真的需要Python来读取大型文本文件吗？我们普通的文字处理程序或文本编辑器不能满足要求吗？当我在这里提到大文件时，我指的是非常大的文件！好吧，让我们看看一些证据，我们是否需要Python才能读取此类文件。获取文件为了进行实验，我们需要一个非常大的文本文件。在本教程中，我们将从UCSC Genome Bioinformatics下载网站上获取此文件。我...

参与评论您还未登录，请先登录后发表或查看评论

python读取大文件目录_65.Python读取大文件

weixin_39609500的博客

11-21

152

方式一import ospath = r"C:\Users\yzt\Desktop\work\InfosecTestPlatform\libs\Log\mainline1-nohup.log"#####################"""file.seek(off, whence=0)：从文件中移动off个操作标记（文件指针），正往结束方向移动，负往开始方向移动。如果设定了whence参数，就以...

Python 读取大文件

未来在这儿的专栏

01-29

2581

Python读取文件大小大于内存，这么处理就有问题了，会造成MemoryError … 也就是发生内存溢出。那么改如何避免或者定位呢

使用python读取大文件

IT之一小佬的博客

10-30

6677

使用python读取大文件

Python读取大型文本文件

张土豆的博客

03-21

9031

最近磕盐过程中需要处理一个大型文本文件，大约70G。在按行读取文件过程中遇到了加载慢，内存占用过高的问题。经过查找资料最终解决了问题。趁此机会也大致总结比较一下Python打开文件的几种方式。 1. 基本打开与按行读取方式 f = open(filename, r) lines = f.readlines() for line in lines: operation on line......

python简单读取大文件的方法

09-21

在Python编程中，处理大文件是一项常见的任务，尤其是在数据分析、日志分析或大规模文本处理等领域。当文件的大小达到GB级别时，一次性加载到内存中可能会导致内存溢出，因此需要采用分块读取的方式。这里我们将探讨...

python读取中文txt文本的方法

09-20

假设我们已知TXT文件是UTF-8编码的，我们可以按照以下方式读取： ```python # Python 2.7 示例 with open("text.txt", "r") as file1: line = file1.readline() # 检查并处理UTF-8 BOM（字节顺序标记） if line....

利用Python读取文件的四种不同方法比对

09-21

Python提供了多种方式来读取文件，每种方式都有其适用的场景和特点。本文将详细介绍并对比四种常用的Python文件读取方法，并通过实际测试来分析它们在处理大文件时的表现。 #### 前言随着数据量的日益增长，如何...

用Python读取几十万行文本数据

09-19

今天小编就为大家分享一篇关于用Python读取几十万行文本数据，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

python 高效去重复支持GB级别大文件的示例代码

09-19

虽然示例代码没有特别指出如何优化以处理GB级别的文件，但通过逐行读取文件内容和生成器的使用，实际上Python脚本是可以处理大规模数据文件的。在内存中只需要保存必要的数据（如读取到的行和去重后的数据），而...

python读取一个文件的大小_Python-读取文件的大小

weixin_39580715的博客

11-22

1696

1.python读取文件以及文件夹的大小1. os.path.getsize(file_path)：file_path为文件路径import osos.path.getsize('d:/svn/bin/SciLexer.dll')#2. 遍历文件夹，将所有文件大小加和， os.walk()遍历文件夹import osfrom os.path import join, getsizedef getd...

使用python来读取超大型文件数据

Together_CZ的博客

11-15

5821

在实际应用中，几乎所有的数据分析工作都是从数据读取开始的，如果数据量太大导致数据文件读取失败了，这样后续的工作就没有办法进行了，在机器自身硬件内存限制的情况下，当文件量过大的时候直接使用read等函数来进行操作的时候就会报错，这里就需要采取一定的策略来尽可能地避免这样的问题产生，今天的工作中就遇上了这样的问题，需要处理的数据文件一共是6.86GB，电脑内存是8GB的，读取的时候就报错了，用...

python读取大文件的坑_python 超大文件读取

weixin_39903477的博客

11-24

255

笔试问题如何使用Python读取1个8GB大小的文件,这个问题其实在笔试中会经常遇到的1个题目。对于在Python中读取文件的操作,一般我们会这样来操作:12f = open('filename','rb')f.read()下面我们来找一个比较大的文件，比如一个Nginx日志。发现问题这里我们找到了1个3G大小的文件。接下来,我们使用普通的读取方式来查看该文件的内容123456f=open('te...

用Python求数学题中阴影部分面积_python编写程序,求出图5

m0_60707685的博客

04-26

838

三、源码设计1.做图源码2.计算源码，其中side是要不要计算图形边框上的点，理论上side只能为True；t设置越大运行时间越长也越精准四、最后小结1.此种算法t为100时，阴影面积为1.268；t为1000时，阴影面积为1.253，已经非常接近正确答案（正确答案1.252）2.举一反三，类似于这种不规则的面积，只要可以写出来函数，就可以求解面积.2.下面有三种求解方法，第三种表示比大学高数还难看懂，你们呢？如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费。

python读什么文件最快的软件_python – 读取文本列的大型数据文件的最快方法是什么？...

weixin_36302134的博客

02-04

333

我有一个近900万行的数据文件(很快就会超过5亿行),我正在寻找最快的读取方式.五个对齐的列被填充并用空格分隔,所以我知道在哪里每行寻找我想要的两个字段.我的Python例程需要45秒：import sys,timestart = time.time()filename = 'test.txt' # space-delimited, aligned columnstrans=[]numax=...

python 读取文件大小_python读取文本文件崩溃，文件大小547k，求解？

weixin_33117093的博客

02-03

161

第一个link是python 2，第二个是python 3。我下面将python 3r用来读取default为system default encoding的file，很明显你的电脑用的是gbk，就是简体汉字的encoding，那么你要读取的file不支持这个encoding，就出现unicode的errorrb读取的是binary的数据，那么肯定是可以读取进来了，不过不一定可以print。于是...

[Python数据可视化]Plotly Express: 地图数据可视化的魅力