李博Garvin的专栏

阿里云机器学习PD

大型文件去重

1.背景面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。2.流程(1)文件切割用split函数对于文件切割。split -l 10000 test.txt-l是按照行切割,10000是每10000行切割成一份文件。切割完会...

2015-07-23 14:04:17

阅读数:2466

评论数:0

提示
确定要删除当前文章?
取消 删除