使用背景
要做文件列表的比较,但是文件有1亿多行,直接比较会很慢,想办法加速。
先split 再sort
两个文件本身的内容顺序不一致,先做排序
1. split
split file1 -l 100000 -d -a 5 split1/split_
split file2 -l 100000 -d -a 5 split2/split_
2. split 小文件 先做sort
for file in `ls split1/`;do
sort split1/${file} -o split_face_sort/${file}.sort
done
3. 大文件sort
-T 指定存储临时文件目录,要有足够的空间存储sort排序生成的临时文件。
-o 指定输出文件路径
sort -T /dest_dir -o sorted_largefile1.txt split1/*.txt
sort -T /dest_dir -o sorted_largefile2.txt split2/*.txt
4. comm or diff
比较排完序的两个大文件, 可以用 comm or diff。
comm -23 sorted_largefile1.txt sorted_largefile2.txt
命令执行需要一定时间。
comm用法
-1
:不显示只在第一个文件中出现的行。
-2
:不显示只在第二个文件中出现的行。
-3
:不显示在两个文件中都出现的行。
so, comm -23
命令将输出只在第一个文件中出现的行, 上面命令只输出只在 sorted_largefile1.txt文件中出现的行,不显示两个文件相同的行。