python快速读取非常大的文件

最新推荐文章于 2024-08-08 16:43:27 发布

coordinate_blog

最新推荐文章于 2024-08-08 16:43:27 发布

阅读量2.6w

点赞数 11

分类专栏： python 文章标签： python big-file

本文链接：https://blog.csdn.net/qq_17550379/article/details/80212131

版权

python 专栏收录该内容

19 篇文章 3 订阅

订阅专栏

读取大文件是我们平时经常会遇到的问题，我这里给出两个比较好的解决方案。第一种

with open("test.txt") as f:
    for line in f:
        #do something with data

这种做法非常的简单。这个代码在打开文件的过程中，不会一次性读取全部文件，而是采用每次读取一行的方式，类似于buffer机制。

当然我们也可以自己去实现一个buffer，然后通过协程的方式操作

def readInChunks(fileObj, chunkSize=4096):
    """
    Lazy function to read a file piece by piece.
    Default chunk size: 4kB.
    """
    while 1:
        data = fileObj.read(chunkSize)
        if not data:
            break
        yield data

f = open('bigFile')
for chuck in readInChunks(f):
    #do_something(chunk)
f.close()

这段代码中我们通过每次读取4k大小的数据，将所有文件读取完。

我对于一个3GB大小的数据进行了读取测试，分别用时如下：

28.54150631145376 s
28.522545760074877 s

两者所用时间差不多。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

coordinate_blog

关注关注

11
点赞
踩
51

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python异步io协程读文件_Python并发编程之协程/异步IO

weixin_39891438的博客

12-21

204

引言随着node.js的盛行，相信大家今年多多少少都听到了异步编程这个概念。Python社区虽然对于异步编程的支持相比其他语言稍显迟缓，但是也在Python3.4中加入了asyncio，在Python3.5上又提供了async/await语法层面的支持，刚正式发布的Python3.6中asyncio也已经由临时版改为了稳定版。下面我们就基于Python3.4+来了解一下异步编程的概念以及async...

python协程读取文件_Python协程函数

weixin_39762075的博客

01-29

483

1 协程函数1.1 协程函数理解协程函数就是使用了yield表达式形式的生成器def eater(name):print("%s eat food" %name)while True:food = yieldprint("done")g = eater("gangdan")print(g)结果:generator object eater at 0x00000000028DC048这里就证明了g...

4 条评论您还未登录，请先登录后发表或查看评论

使用python来读取超大型文件数据

Together_CZ的博客

11-15

5825

在实际应用中，几乎所有的数据分析工作都是从数据读取开始的，如果数据量太大导致数据文件读取失败了，这样后续的工作就没有办法进行了，在机器自身硬件内存限制的情况下，当文件量过大的时候直接使用read等函数来进行操作的时候就会报错，这里就需要采取一定的策略来尽可能地避免这样的问题产生，今天的工作中就遇上了这样的问题，需要处理的数据文件一共是6.86GB，电脑内存是8GB的，读取的时候就报错了，用...

python读取大文件的行数的最快方法_Python计算大文件行数方法及性能比较

weixin_39880301的博客

11-20

414

如何使用Python快速高效地统计出大文件的总行数, 下面是一些实现方法和性能的比较。1.readline读所有行使用readlines方法读取所有行:def readline_count(file_name):return len(open(file_name).readlines())2.依次读取每行依次读取文件每行内容进行计数:def simple_count(file_name):line...

Python入门必备知识总结（建议收藏再用）

最新发布

Python_trys的博客

08-08

1172

python 是一种面向对象的解释性计算机程序设计语言。python由荷兰人Guido van Rossum 于1989年发明。1991年，第一个Python编译器诞生。它是用C语言实现的，并能够调用C语言的库文件。从一出生，Python已经具有了：类，函数，异常处理，包含表和词典在内的核心数据类型，以及模块为基础的拓展系统。1994年1月 python 1.0诞生，增加lambda，map，filter and reduce1999年，python web的鼻祖 Zope 1 发布。

python读取大文件的行数的最快方法_如何用最快的速度读出大小为10G的文件的行数?弄懂 python 的迭代器...

weixin_39947351的博客

11-20

234

1 with open('rm_keys.txt', 'r', encoding = 'utf-8') as f:23 count =045 for line inf:67count += 189 　　print(count)for line in f 将文件对象 f 视为一个可迭代的数据类型，会自动使用 IO 缓存和内存管理，这样就不必担心大文件了。一、先理解可迭代对象的本质随便封装了一...

Python从数据库读取大量数据批量写入文件的方法

09-19

- 如果数据量非常大，建议进一步优化读取和写入的过程，例如使用更高效的文件格式（如CSV）或者更快速的写入方式（如缓冲写入）。 #### 五、总结本文介绍了如何使用Python从数据库中读取大量数据，并将其批量写入...

Python Pandas批量读取csv文件到dataframe的方法

09-20

在处理数据时，Python中的Pandas库是处理和分析表格数据的强大工具。它尤其擅长处理CSV（Comma-Separated Values）文件，即用逗号分隔的...希望这些知识点能够帮助读者快速掌握使用Pandas批量读取和处理CSV文件的能力。

强悍的Python读取大文件的解决方案

01-01

这是一道著名的 Python 面试题，考察的问题是，Python 读取大文件和一般规模的文件时的区别，也即哪些接口不适合读取大文件。 1. read() 接口的问题 f = open(filename, 'rb') f.read() 我们来读取 1 个 nginx 的...

python读取大量数据比较快_python 读取大文件数据怎么快速读取

weixin_39610085的博客

12-18

1320

匿名用户1级2017-08-26 回答python中读取数据的时候有几种方法，无非是read，readline，readlings和xreadlines几种方法，在几种方法中，read和xreadlines可以作为迭代器使用，从而在读取大数据的时候比较有效果.在测试中，先创建一个大文件，大概1GB左右，使用的程序如下：[python] view plaincopyprint?import os.p...

Python基于read(size)方法读取超大文件

09-17

主要介绍了Python基于read(size)方法读取超大文件,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

python简单读取大文件的方法

12-25

本文实例讲述了python简单读取大文件的方法。分享给大家供大家参考，具体如下： Python读取大文件（GB级别）采用的办法很简单： with open(...) as f: for line in f: <do> 例如： with open(filepath,'r') as infile: for line in infile: print line 一切都交给python解释器处理，读取效率很高，且占用资源少。 stackoverflow参考链接：How to read large file, line by line in p

python 快速读取百万级小文件_Python如何读取数据量百万级的CSV文件数据?

weixin_39760434的博客

12-23

726

是时候安利我们的开源库：Mars。Mars DataFrame 可以用来加速 pandas 执行，即使在单机。而代码几乎无需改动。以下代码都是在我的笔记本上跑的。任务一：只读取 CSV 文件pandas：In [1]: import pandas as pdIn [2]: %time df = pd.read_csv('ratings.csv')CPU times: user 4.75 s, sy...

【Python】如何高效获取大文件行数？

...

07-09

2859

如何获取一个文本文件的行数？接下来，我们对【方法1】思路：借助readlines def readline_count(file_name): return len(open(file_name,encoding="utf-8").readlines()) cnt=readline_count(file_path) print(cnt) 【方法2】

【Python】如何用Python高效计算大文件的行数

PythonWeb实践

05-23

651

在UNIX系统中，文件的元数据包括了“inode”大小，这通常与文件内容的大小成正比。在Python中，计算一个文件的行数通常意味着需要逐行读取文件，这在处理大文件时可能会非常耗时。然而，如果我们只关心行数，而不需要文件的具体内容，有一些更高效的技巧可以利用。Python的文件操作默认使用缓冲区，这意味着文件的读取操作会先在内存中的缓冲区进行，而不是直接从磁盘读取。最直接的方法是打开文件，然后逐行读取，直到文件结束。这种方法简单但效率低下。模块，它允许我们以内存映射的方式读取文件，这样可以减少内存的使用。

python协程读取文件_python读文件保存json保存mongo,多进程,协程,计时,redis队列

weixin_39806065的博客

12-06

189

# -*- coding: utf-8 -*-"""@Time : 2020/7/10 17:22@Athor : LinXiao@功能 :"""# ------------------------------import asyncioimport jsonimport multiprocessingimport osimport platformimport timeitfrom ...

Python读取大文件

kong

11-10

1218

Python读取大文件用Python读取2GB文件的时候，用普通方式读取报错MemoryError，说明该无文件无法被装载在内存中发生溢出了。 read和readlines都是将整个文件加入到内存中，文件较大时，会引发MemoryError 逐行读取 with open('filename', 'r', encoding = 'utf-8') as f: while True: ...

python协程读取文件_python--基础知识点梳理（三）深浅拷贝、进线协程、os和sys、垃圾回收机制、读文件的三种方式...

weixin_39851457的博客

12-06

深拷贝与浅拷贝import copy浅拷贝：将一个对象的引用拷贝到另一个对象上，所以如果我们在拷贝中改动，会影响到原对象。copy.copy()深拷贝：将一个对象拷贝到另一个对象中，新开辟了一个空间，这意味着如果你对一个对象的拷贝做出改变时，不会影响原对象。copy.deepcopy()进程、线程、协程进程process：资源分配的最小单位，一个可执行的程序被加载到内存中。拥有自己独立的堆和栈，既...

使用python读写大文件

IT之一小佬的博客

02-09

1465

使用python读写大文件

python怎样读取大型txt文件

06-01

这种方法是逐行读取文件，数据不会全部加载到内存中，适用于大型文件的读取。但是如果需要对文件进行多次操作，每次都需要重新打开文件，效率较低。 2. 分块读取 ```python with open('large_file.txt', 'r') as f...