基于PYTHON的超大文本分割工具

本文介绍了作者在面对一个40GB、包含30亿行数据的TXT文本时,由于现有工具无法处理,自行编写了一个基于Python的超大文本分割工具。该工具能够按行数对超大文本进行分割,且分割后的文件名会自动添加顺序号。软件适用于大文本分割,但分割的小文本数量受限于电脑内存。作者建议16GB内存的电脑分割文件不要超过3500万行,并分享了软件的实现步骤,强调了列表清空和文本编码选择的重要性。
摘要由CSDN通过智能技术生成

“记事本”作为一款保存信息的载体,基本上每个网民都见过或使用过它。它不但读取方便,使用起来也是得心应手。不过,对于存放有超大数据的TXT文本,我们对它又爱又恨。爱它是因为我们的信息终于简单地存放好了。恨它是因为文本中内容存放过多,电脑无法打开。这时候,我们就需要用到一款文本分割工具,让大容量文本变成小容量文本。

本人近日有一个40G的TXT文本,约有数据30亿行,需要对其中的数据进行处理。通过搜索引擎,搜到许多站点提供文本分割工具下载,下载了许多款不同的分割工具,发现他们对较大的文件分割支持较好,但是对我这个超大文本没有办法,要么直接不动,要么就是文件分割成功,但都是空文档。熟话说得好,求人不如求己,只好自己花了二小时,写了一款基于python的超大文本分割工具,将文本成功分割。

软件适合对超大文本按行数进行分割。待分割软件(支持多份)同时存放于待分割文件夹中,系统会自动按要求对文件进行分割,分割好的文件存放于分割文件夹(系统自动生成)。
  分割文件名由原名加“—顺序号”自动生成。文本大小理论上不受限制。分割的小文本支持条数和电脑内存有关,经本人测试,单个小文本4000万条时,16G内存电脑勉强运行,但内存占用率达到97%。故相同内存配置电脑,建议分割成的小文本控制在3500万以下较好,内存翻倍的电脑,可以按16G内存和每条文件长短的情况进行测试。待分割的文件较大,电脑配置较低时

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值