大型文件去重

1.背景面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。2.流程(1)文件切割用split函数对于文件切割。split -l 10000 test.txt-l是按照行切割,10000是每10000行切割成一份文件。切割完会在当前目录自动生成10000行一例的文件。(2)去重sort -u origin.txt -o outp...
阅读(1333) 评论(0)
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    作者新书《机器学习实践应用》
    个人资料
    • 访问:638821次
    • 积分:9068
    • 等级:
    • 排名:千里之外
    • 原创:215篇
    • 转载:33篇
    • 译文:0篇
    • 评论:417条
    博客专栏
    统计