大型文件去重

1.背景面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。2.流程(1)文件切割用split函数对于文件切割。split -l 10000 test.txt-l是按照行切割,10000是每10000行切割成一份文件。切割完会在当前目录自动生成10000行一例的文件。(2)去重sort -u origin.txt -o outp...
阅读(1823) 评论(0)
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    机器学习微信交流群
    为了方便大家学习与交流,凡人云近日已开通机器学习社群! 分享“凡人机器学习”公众号名片到40人以上的大群并截图给小助手,小助手就会拉你入群 在这里你可以得到: 1.各种学术讨论 2.最新的资料分享 3.不定期的征文以及联谊活动! 小助手微信号:meiwznn
    作者新书《机器学习实践应用》

    主要讲述算法和业务的结合,适合初学者

    机器学习实践应用

    京东地址

    个人资料
    • 访问:755157次
    • 积分:10348
    • 等级:
    • 排名:第1807名
    • 原创:226篇
    • 转载:39篇
    • 译文:0篇
    • 评论:452条
    博客专栏
    统计