LINUX Shell 下求两个文件交集和差集的办法

假设两个文件FILE1和FILE2用集合A和B表示,FILE1内容如下:

FILE2内容如下:

基本上有两个方法,一个是comm命令,一个是grep命令。分别介绍如下:

 

comm命令 , Compare sorted files FILE1 and FILE2 line by line. With  no options, produce three-column output.  Column one contains lines unique to FILE1, column two contains lines unique to FILE2, and column three contains lines common to both files. 要注意两个文件必须是排序和唯一(sorted and unique)的,默认输出为三列,第一列为是A-B,第二列B-A,第三列为A交B。

直接运行结果如下:

仅仅排序:

排序并且唯一:

如果只想要交集,如下即可:

至于差集,读者自己思考了。

 

grep 命令是常用的搜索文本内容的,要找交集,如下即可:

grep不要求排序,但是因为是集合操作,唯一是必须的(不然怎么是集合呢?)。所以:

差集呢?

第一行结果为B-A,所以为空;第二行为A-B。注意顺序很重要!

### Python 中计算两个列表的交集差集并集 在 Python 中,可以利用 `set` 数据结构来高效地执行这些操作。以下是具体实现方式: #### 计算两个列表的交集 为了获得两个列表中的共同元素(即交集),可以通过转换成集合再调用 `.intersection()` 方法完成。 ```python list_a = [1, 2, 3, 4, 5, 6] list_b = [4, 5, 6, 7] # 转换成集合后取交集 intersection_result = list(set(list_a).intersection(set(list_b))) print(f"Intersection: {intersection_result}") ``` 此段代码会输出 `[4, 5, 6]` 表明这是两组数据中共有的部分[^2]。 #### 获取两个列表的并集 对于想要得到所有不重复元素组成的总集合,则应该采用如下做法之一: - 使用加法运算符连接后再去重; - 或者直接通过`.union()`函数处理。 推荐第二种方案因为它效率更高一些。 ```python # 推荐的方式:使用 .union() 函数 union_result = list(set(list_a).union(set(list_b))) print(f"Union: {union_result}") ``` 这段程序将会打印出包含所有唯一数值的新列表,例如 `[1, 2, 3, 4, 5, 6, 7]`[^1]。 #### 寻找两个列表间的差异(差集) 当目标是从第一个列表中移除第二个列表中存在的项时,可借助于 `.difference()` 来达成目的。 ```python # 找到只存在于 list_a 中而不在 list_b 中的元素 difference_result = list(set(list_a).difference(set(list_b))) print(f"Difference (elements only in list_a): {difference_result}") # 如果也需要知道仅属于 list_b 的那些成员,只需交换参数顺序即可 reverse_difference_result = list(set(list_b).difference(set(list_a))) print(f"Difference (elements only in list_b): {reverse_difference_result}") ``` 上述脚本分别展示了哪些数字符合各自条件下的差别情况,如前者可能显示 `[1, 2, 3]`, 后者则可能是 `[7]`。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值