简单方便,使用Python读取大文件教程

最近有一些朋友遇到了困扰,想要读取7G多的文本文件,但是电脑只有8G内存,于是问我如何才能读取这样庞大的文件。

根据我曾经的亲身经历,我工作机只有24G内存,要读取15.6G的单个文本文件,虽然理论上足够,但是如果不需全文使用的话,岂不是十分浪费?此时我研究一番之后发现了这样一个工具,下面来聊一聊。

本教程适合需要读取大文本文件的一部分或者遍历大文本文件的场景,其他类型的文件我没试过,不能确定能否使用。

首先,需要安装pyspark,这个工具底层是使用Java写的,而且根据我的测试,不支持较新版本的Java环境,需要8.0版本,我不是Java程序员,没法跟你介绍具体安装流程,自行百度。

 

此时,编写一个脚本(或者在交互环境中运行),输入代码:

 

1: 导入工具包

2: 这里我需要在文本中查找文字,所以使用正则,具体做什么,用户自行编写逻辑

3: 读取文件的上下文环境,此处这样写运行时会有警告出现,但是为了方便,忽略就行,毕竟自己用的代码不用太纠结这些。

4: 读文件,此处的路径必须这样的格式:'file://'

5: 用文件对象产生生成器,节约内存

6: 生成器对象可直接遍历

几行代码搞定,是不是十分方便?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值