“记事本”作为一款保存信息的载体,基本上每个网民都见过或使用过它。它不但读取方便,使用起来也是得心应手。不过,对于存放有超大数据的TXT文本,我们对它又爱又恨。爱它是因为我们的信息终于简单地存放好了。恨它是因为文本中内容存放过多,电脑无法打开。这时候,我们就需要用到一款文本分割工具,让大容量文本变成小容量文本。
本人近日有一个40G的TXT文本,约有数据30亿行,需要对其中的数据进行处理。通过搜索引擎,搜到许多站点提供文本分割工具下载,下载了许多款不同的分割工具,发现他们对较大的文件分割支持较好,但是对我这个超大文本没有办法,要么直接不动,要么就是文件分割成功,但都是空文档。熟话说得好,求人不如求己,只好自己花了二小时,写了一款基于python的超大文本分割工具,将文本成功分割。
软件适合对超大文本按行数进行分割。待分割软件(支持多份)同时存放于待分割文件夹中,系统会自动按要求对文件进行分割,分割好的文件存放于分割文件夹(系统自动生成)。
分割文件名由原名加“—顺序号”自动生成。文本大小理论上不受限制。分割的小文本支持条数和电脑内存有关,经本人测试,单个小文本4000万条时,16G内存电脑勉强运行,但内存占用率达到97%。故相同内存配置电脑,建议分割成的小文本控制在3500万以下较好,内存翻倍的电脑,可以按16G内存和每条文件长短的情况进行测试。待分割的文件较大,电脑配置较低时