Linux下过滤文件名去重,Linux下文件排序去重取交集差集

获取交集

cat a.txt b.txt | sort | uniq -d >

./comm.txt

comm -12

b.txt|uniq ) >

./comm.txt 共同的交集

获取差

cat a.txt b.txt | sort | uniq -u >

./diff.txt 写入a.txt和b.txt所有 不同的元素 相同元素不写入

注意顺序很重要!

$ grep -F -v -f a.txt b.txt | sort | uniq > ./diff.txt

B-A 写入b.txt的不同元素  相同元素不写入

$ grep -F -v -f b.txt a.txt | sort | uniq

>

./diff.txt A-B  写入a.txt的不同元素 相同元素不写入

==========================================================

运营提了个导数据的需求,需要把某段时间登陆用户id导出来,由于数据量大,分了多个文

件保存。数据保存格式,每一行一个用户id。刚开始打算用数据,由于数据量大,就放弃了,存数据库去重,取数据交集差集比较方便,比如在A时间登陆了B时

间没有登陆的用户(差集)。Linux下有操作文件的命令,而且功能也很强大。下面是我的备注(经我整理,来源于互联网):

ls ./lc* | xargs -t -i sort {} -o {}

当前目录以lc开头的文件批量排序,结果保存到原文件中

ls ./lc* | xargs -t -i uniq {} ./uniq/{}

当前目录以lc开头的文件批量去重,结果保存到与原文件名相同uniq目录下

cat lcUsrLoginData20120601.txt lcUsrLoginData20120616.txt | sort

| uniq > ../month/lcUsrLoginData201206.txt

合并当前目录下两文件并排序并去重,结果保存到当前目录的父目录的子目录month中

cat a.txt b.txt | sort | uniq -d | wc -l

comm -12 a.txt b.txt | wc -l

计算两个文件交集元素个数(为什么最后是换行符才行?)

cat a.txt b.txt | sort | uniq -d > temp.txt

cat a.txt temp.txt | sort | uniq -u > diff.txt

计算两个文件的差集

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java 8 中可以使用 Stream API 来实现集合之间的交集、并集、差集去重并集。 假设有两个 List 集合:list1 和 list2,分别包含一些元素,代码如下: ```java List<Integer> list1 = Arrays.asList(1, 2, 3, 4, 5); List<Integer> list2 = Arrays.asList(4, 5, 6, 7, 8); ``` 下面分别介绍如何实现集合之间的操作。 1. 交集 交集获取两个集合中共同拥有的元素。可以使用 Stream API 的 `filter()` 方法和 `contains()` 方法实现。代码如下: ```java List<Integer> intersection = list1.stream() .filter(list2::contains) .collect(Collectors.toList()); System.out.println("交集:" + intersection); // 输出 [4, 5] ``` 2. 并集 并集即获取两个集合中所有的元素,但是去重。可以使用 Stream API 的 `distinct()` 方法和 `concat()` 方法实现。代码如下: ```java List<Integer> union = Stream.concat(list1.stream(), list2.stream()) .distinct() .collect(Collectors.toList()); System.out.println("并集:" + union); // 输出 [1, 2, 3, 4, 5, 6, 7, 8] ``` 3. 差集 差集获取两个集合中不同的元素。可以使用 Stream API 的 `filter()` 方法和 `!contains()` 方法实现。代码如下: ```java List<Integer> diff1 = list1.stream() .filter(e -> !list2.contains(e)) .collect(Collectors.toList()); System.out.println("差集1:" + diff1); // 输出 [1, 2, 3] List<Integer> diff2 = list2.stream() .filter(e -> !list1.contains(e)) .collect(Collectors.toList()); System.out.println("差集2:" + diff2); // 输出 [6, 7, 8] ``` 4. 去重并集 去重并集即获取两个集合中所有的元素,并且去重。可以使用 Stream API 的 `distinct()` 方法和 `flatMap()` 方法实现。代码如下: ```java List<Integer> distinctUnion = Stream.of(list1, list2) .flatMap(List::stream) .distinct() .collect(Collectors.toList()); System.out.println("去重并集:" + distinctUnion); // 输出 [1, 2, 3, 4, 5, 6, 7, 8] ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值