1.背景
面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。
2.流程
(1)文件切割
用split函数对于文件切割。
split -l 10000 test.txt
-l是按照行切割,10000是每10000行切割成一份文件。切割完会在当前目录自动生成10000行一例的文件。
(2)去重
sort -u origin.txt -o output.txt
本文来自博客 “李博Garvin“
转载请标明出处:http://blog.csdn.net/buptgshengod]