Linux下过滤文件名去重,Linux下文件排序去重取交集差集

最新推荐文章于 2022-12-27 12:05:44 发布

大涛讲软考

最新推荐文章于 2022-12-27 12:05:44 发布

阅读量389

点赞数

文章标签： Linux下过滤文件名去重

获取交集

cat a.txt b.txt | sort | uniq -d >

./comm.txt

comm -12

b.txt|uniq ) >

./comm.txt 共同的交集

获取差

cat a.txt b.txt | sort | uniq -u >

./diff.txt 写入a.txt和b.txt所有不同的元素相同元素不写入

注意顺序很重要！

$ grep -F -v -f a.txt b.txt | sort | uniq > ./diff.txt

B-A 写入b.txt的不同元素相同元素不写入

$ grep -F -v -f b.txt a.txt | sort | uniq

>

./diff.txt A-B 写入a.txt的不同元素相同元素不写入

==========================================================

运营提了个导数据的需求，需要把某段时间登陆用户id导出来，由于数据量大，分了多个文

件保存。数据保存格式，每一行一个用户id。刚开始打算用数据，由于数据量大，就放弃了，存数据库去重，取数据交集差集比较方便，比如在A时间登陆了B时

间没有登陆的用户(差集)。Linux下有操作文件的命令，而且功能也很强大。下面是我的备注(经我整理，来源于互联网)：

ls ./lc* | xargs -t -i sort {} -o {}

当前目录以lc开头的文件批量排序,结果保存到原文件中

ls ./lc* | xargs -t -i uniq {} ./uniq/{}

当前目录以lc开头的文件批量去重,结果保存到与原文件名相同uniq目录下

cat lcUsrLoginData20120601.txt lcUsrLoginData20120616.txt | sort

| uniq > ../month/lcUsrLoginData201206.txt

合并当前目录下两文件并排序并去重,结果保存到当前目录的父目录的子目录month中

cat a.txt b.txt | sort | uniq -d | wc -l

comm -12 a.txt b.txt | wc -l

计算两个文件交集元素个数(为什么最后是换行符才行?)

cat a.txt b.txt | sort | uniq -d > temp.txt

cat a.txt temp.txt | sort | uniq -u > diff.txt

计算两个文件的差集

大涛讲软考

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Linux下过滤文件名去重,Linux下文件排序去重取交集差集

获取交集cat a.txt b.txt | sort | uniq -d>./comm.txtcomm -12 b.txt|uniq )>./comm.txt共同的交集获取差cat a.txt b.txt | sort | uniq -u>./diff.txt写入a.txt和b.txt所有不同的元素相同元素不写入注意顺序很重要！$grep-F-v-fa.t...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。