两个文件的共同部分或者差异部分（基于shell命令）_脚本或者软件直接两个文本不同的部分

2401_84975828

于 2024-05-16 01:53:48 发布

阅读量766

点赞数 24

文章标签： c语言 c++ 学习

本文链接：https://blog.csdn.net/2401_84975828/article/details/138931726

版权

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上C C++开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

[cpp]
view plain
copy

#!/bin/sh
# author by tianmo
# date 2011-11-21 20:33
#BEGIN
cat a.txt | sort | uniq | sort > a_u.txt
cat b.txt | sort | uniq | sort > b_u.txt
comm -23 a_u.txt b_u.txt > c.txt
# END

2 diff命令

功能说明：比较文件的差异。

语　　法：diff [-abBcdefHilnNpPqrstTuvwy][-<行数>][-C <行数>][-D <巨集名称>][-I <字符或字符串>][-S <文件>][-W <宽度>][-x <文件或目录>][-X <文件>][–help][–left-column][–suppress-common-line][文件或目录1][文件或目录2]

补充说明：diff以逐行的方式，比较文本文件的异同处。所是指定要比较目录，则diff会比较目录中相同文件名的文件，但不会比较其中子目录。

参　　数：

-<行数> 　指定要显示多少行的文本。此参数必须与-c或-u参数一并使用。

-a或–text 　diff预设只会逐行比较文本文件。

-b或–ignore-space-change 　不检查空格字符的不同。

-B或–ignore-blank-lines 　不检查空白行。

-c 　显示全部内文，并标出不同之处。

-C<行数>或–context<行数> 　与执行"-c-<行数>"指令相同。

-d或–minimal 　使用不同的演算法，以较小的单位来做比较。

-D<巨集名称>或ifdef<巨集名称> 　此参数的输出格式可用于前置处理器巨集。

-e或–ed 　此参数的输出格式可用于ed的script文件。

-f或-forward-ed 　输出的格式类似ed的script文件，但按照原来文件的顺序来显示不同处。

-H或–speed-large-files 　比较大文件时，可加快速度。

-l<字符或字符串>或–ignore-matching-lines<字符或字符串> 　若两个文件在某几行有所不同，而这几行同时都包含了选项中指定的字符或字符串，则不显示这两个文件的差异。

-i或–ignore-case 　不检查大小写的不同。

-l或–paginate 　将结果交由pr程序来分页。

-n或–rcs 　将比较结果以RCS的格式来显示。

-N或–new-file 　在比较目录时，若文件A仅出现在某个目录中，预设会显示：

Only in目录：文件A若使用-N参数，则diff会将文件A与一个空白的文件比较。

-p 　若比较的文件为C语言的程序码文件时，显示差异所在的函数名称。

-P或–unidirectional-new-file 　与-N类似，但只有当第二个目录包含了一个第一个目录所没有的文件时，才会将这个文件与空白的文件做比较。

-q或–brief 　仅显示有无差异，不显示详细的信息。

-r或–recursive 　比较子目录中的文件。

-s或–report-identical-files 　若没有发现任何差异，仍然显示信息。

-S<文件>或–starting-file<文件> 　在比较目录时，从指定的文件开始比较。

-t或–expand-tabs 　在输出时，将tab字符展开。

-T或–initial-tab 　在每行前面加上tab字符以便对齐。

-u,-U<列数>或–unified=<列数> 　以合并的方式来显示文件内容的不同。

-v或–version 　显示版本信息。

-w或–ignore-all-space 　忽略全部的空格字符。

-W<宽度>或–width<宽度> 　在使用-y参数时，指定栏宽。

-x<文件名或目录>或–exclude<文件名或目录> 　不比较选项中所指定的文件或目录。

-X<文件>或–exclude-from<文件> 　您可以将文件或目录类型存成文本文件，然后在=<文件>中指定此文本文件。

-y或–side-by-side 　以并列的方式显示文件的异同之处。

–help 　显示帮助。

–left-column 　在使用-y参数时，若两个文件某一行内容相同，则仅在左侧的栏位显示该行内容。

–suppress-common-lines 　在使用-y参数时，仅显示不同之处。

例如：找出a.txt文件有而b.txt文件中没有的放在c.txt文件中

[cpp]
view plain
copy

#!/bin/sh
# author by tianmo
# date 2011-11-21 20:33
#BEGIN
cat a.txt | sort | uniq | sort > a_u.txt
cat b.txt | sort | uniq | sort > b_u.txt
diff a_u.txt b_u.txt | grep /< | awk ’ $1 = " " ’ > c.txt
# END

3 Linux系统下比较两个文件并删除相同部分



方法一：
comm -23 file1 file2
方法二：
grep -v -f file1 file2
/注：：此法在对比数字时候比较凑效果，文本对比不建议使用/
方法三：
awk ‘{print NR，$0}’ file1 file2
或者：
awk ‘{print $0}’ file1 file2

4 Linux Shell删除两个文件相同部分

因为在面试中遇到一个这样的问题，当时模模糊糊的，没有很确定的回答出来，后来上网查了一下结果，这里总结一下。首先描述一下这个问题：比如两个文件file1和file2，删除两个文件中共同的部分，留下两个文件中独自有的部分。在网上找到一篇解决的答案，地址在这里http://hi.baidu.com/robertoyuan/blog/item/559483c4946ed5a78226acac.html。这里提到三种方法，但是没有给具体的解释。

方法一：使用grep

grep -v -f file1 file2 && grep -v -f file2 file1

grep命令的详细使用方法，可以参考man，这里有一个简单实用的介绍：http://linux.ccidnet.com/art/3067/20070313/1035613_1.html。在方法一中，用到了两个参数。参数-v，表示invert match，即反向匹配，输出没有匹配上的项。参数-f，表示从文件中读取匹配模板(pattern)。方法一中的前一部分，在文件file1中匹配模板，来反向匹配文件file2中的内容，即输出文件file2中，在file1中没有的内容。后面的一部分同理可得，输出文件file1中，在file2中没有的内容。

方法二：实用comm

comm -3 file1 file2

这个方法看起来最简单。命令comm的功能就是，逐行比较两个排好序的文件，默认输出有三列：只在file1中有的行、只在file2中有的行、在file1和file2中共有的行。有参数-1 -2 -3，分别来抑制输出对应的列。例如在我们的方法二中，实用-3参数，不输出file1和file2中共有的部分。即能达到我们本文的目的。
但是注意到，comm比较排好序的两个文件，comm在处理文件的时候，首先要查看文件是否有序，例如file1和file2的内容如下：

[cpp]
view plain
copy

$cat file1
line1
line2
line3

[cpp]
view plain
copy

$cat file2
line0
line1
line3
line2

调用前面方法二的命令的时候，就会提示file2文件时无序的，输出的结果如下：

$ comm -3 file1 file2

line0

line2

comm: file 2 is not in sorted order

line2

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上C C++开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

链图片转存中…(img-6LITf9tv-1715795606954)]
[外链图片转存中…(img-bhRsoPc1-1715795606954)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上C C++开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

2401_84975828

关注

24
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
两个文件的共同部分或者差异部分（基于shell命令）_脚本或者软件直接两个文本不同的部分

在方法一中，用到了两个参数。方法一中的前一部分，在文件file1中匹配模板，来反向匹配文件file2中的内容，即输出文件file2中，在file1中没有的内容。语　　法：diff [-abBcdefHilnNpPqrstTuvwy][-][-C ][-D ][-I ][-S ][-W ][-x ][-X ][–help][–left-column][–suppress-common-line][文件或目录1][文件或目录2]
复制链接

扫一扫