大文件使用sort的方法

陌上阳光

于 2024-06-12 11:48:30 发布

阅读量350

点赞数 15

分类专栏： Linux 文章标签： Linux sort 大文件

本文链接：https://blog.csdn.net/weixin_42831564/article/details/139622184

版权

Linux 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

大文件使用sort的方法

使用背景
先split 再sort

使用背景

要做文件列表的比较，但是文件有1亿多行，直接比较会很慢，想办法加速。

先split 再sort

两个文件本身的内容顺序不一致，先做排序

1. split

split file1 -l 100000 -d -a 5 split1/split_
split file2 -l 100000 -d -a 5 split2/split_

2. split 小文件先做sort

for file in `ls split1/`;do
    sort split1/${file} -o split_face_sort/${file}.sort
done

3. 大文件sort

-T 指定存储临时文件目录，要有足够的空间存储sort排序生成的临时文件。
-o 指定输出文件路径

sort -T /dest_dir -o sorted_largefile1.txt split1/*.txt
sort -T /dest_dir -o sorted_largefile2.txt split2/*.txt

4. comm or diff

比较排完序的两个大文件，可以用 comm or diff。

comm -23 sorted_largefile1.txt sorted_largefile2.txt

命令执行需要一定时间。

comm用法

-1：不显示只在第一个文件中出现的行。
-2：不显示只在第二个文件中出现的行。
-3：不显示在两个文件中都出现的行。
so, comm -23 命令将输出只在第一个文件中出现的行，上面命令只输出只在 sorted_largefile1.txt文件中出现的行，不显示两个文件相同的行。