问题:要对一个几G,几千万行的文件进行预处理。
功能:将一个文件中记录按一定的规则分割进不同的文件。
优点:用shell脚本做文本处理真的很方便,寥寥数行,啥都搞定了,如果用其它高级语言写,指不定得写多久。
缺点:单进程单线程做文本分割,耗时可能会很长。
在本例中,需处理的文本记录的格式为:
代码:
输出:
问题:要对一个几G,几千万行的文件进行预处理。
功能:将一个文件中记录按一定的规则分割进不同的文件。
优点:用shell脚本做文本处理真的很方便,寥寥数行,啥都搞定了,如果用其它高级语言写,指不定得写多久。
缺点:单进程单线程做文本分割,耗时可能会很长。
在本例中,需处理的文本记录的格式为:
代码:
输出: