大文件使用sort的方法

使用背景

要做文件列表的比较,但是文件有1亿多行,直接比较会很慢,想办法加速。

先split 再sort

两个文件本身的内容顺序不一致,先做排序

1. split

split file1 -l 100000 -d -a 5 split1/split_
split file2 -l 100000 -d -a 5 split2/split_

2. split 小文件 先做sort

for file in `ls split1/`;do
    sort split1/${file} -o split_face_sort/${file}.sort
done

3. 大文件sort

-T 指定存储临时文件目录,要有足够的空间存储sort排序生成的临时文件。
-o 指定输出文件路径

sort -T /dest_dir -o sorted_largefile1.txt split1/*.txt
sort -T /dest_dir -o sorted_largefile2.txt split2/*.txt

4. comm or diff

比较排完序的两个大文件, 可以用 comm or diff。

comm -23 sorted_largefile1.txt sorted_largefile2.txt

命令执行需要一定时间。

comm用法

-1:不显示只在第一个文件中出现的行。
-2:不显示只在第二个文件中出现的行。
-3:不显示在两个文件中都出现的行。
so, comm -23 命令将输出只在第一个文件中出现的行, 上面命令只输出只在 sorted_largefile1.txt文件中出现的行,不显示两个文件相同的行。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值