Linux Shell中使用awk完成两个文件的关联Join

Shell中的awk命令是非常强大的,有很多书籍专门介绍awk的。本文介绍的只是其中很小的一个点,使用awk命令完成两个文件的关联join。

先看看awk中的两个自身变量,NR和FNR。 awk可以指定同时读取多个文件,按照指定的先后顺序,逐个读取。

NR指的是awk所读取到所有记录(包括多个文件)的行数索引号,大概是Number Of Record的意思。

FNR只的是awk所读取到的每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始,大概是File Number Of Record的意思。

有两个简单的文件:

 
  1. [liuxiaowen@getway tmp]$ cat a.txt
  2. 1,a-1
  3. 2,a-2
  4. 3,a-3
  5. 4,a-4
  6. [liuxiaowen@getway tmp]$ cat b.txt
  7. 2,b-2
  8. 4,b-4
  9. 5,b-5

 

上面第一个命令中,awk只读取一个文件,因此NR和FNR是一样的;

第二个命令有两个文件,从NR=5开始读取第二个文件b.txt。

由这点可以得出一个规则:当NR==FNR时候,读取到的内容为第一个文件的内容,当NR!=FNR时候,读取到的内容是第二个文件的。

看下面的命令:

 
  1. [liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR{print $0,a[$1]}' b.txt a.txt
  2. 1,a-1
  3. 2,a-2 b-2
  4. 3,a-3
  5. 4,a-4 b-4

从输出的结果来看,已经将两个文件通过第一列的值join起来,准确的说是a.txt left outer join b.txt.

解释一下这个命令:

第一部分:

 
  1. NR==FNR{a[$1]=$2;}

a是一个数组;当NR==FNR,也就是读取第一个文件的内容(第一个文件就是后面的b.txt),以b.txt中的$1作为数组索引号,以b.txt中的$2作为数组的值;

因此,第一部分过后,有了一个数组a,具体的值为 a[2]=”b-2″, a[4]=”b-4″, a[5]=”b-5″

再看第二部分:

 
  1. NR!=FNR{print $0,a[$1]}

当NR!=FNR时候,也就是读取第二个文件的内容(a.txt),print $0(打印a.txt中的内容),以及a[$1],这里的含义是以a.txt中的$1为索引号,去数组a中获取值,因为之前数组a中的索引号有2,4,5;因此a.txt中第一列为2和4的记录从数组a中获取到了值,1,3,5在数组a中不存在。

 

如果是将两个文件做内关联:

 
  1. [liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && a[$1] {print $0,a[$1]}' b.txt a.txt
  2. 2,a-2 b-2
  3. 4,a-4 b-4

变了一个条件:NR!=FNR && a[$1]

读取第二个文件的内容,并且第二个文件的$1在数组中存在,也可以写成 $1 in a

 
  1. [liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && $1 in a {print $0,a[$1]}' b.txt a.txt
  2. 2,a-2 b-2
  3. 4,a-4 b-4
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 使用awk合并两个文件的列可以使用以下命令: ``` awk 'FNR==NR{a[FNR]=$0;next}{print a[FNR],$0}' file1 file2 ``` 这个命令的作用是在每一行输出file1的对应行和file2的对应行。其,FNR表示当前处理的行号,NR表示处理的总行数。当处理第一个文件file1时,使用a[FNR]=$0将每一行保存到数组a。在处理第二个文件file2时,输出数组a对应的行和当前行的内容,从而实现列的合并。 ### 回答2: awk是一种文本处理工具,它的功能非常强大。可以用它合并两个文件的列。 如果我们有两个文件file1和file2,每个文件各有多行,每行有若干列。我们想要合并这两个文件的某些列,可以使用awk命令。 假设file1的第一列是A列,第二列是B列,而file2的第一列是C列,第二列是D列。我们想要按照A列来合并这两个文件的对应行。 可以使用以下命令来实现: awk 'NR==FNR{a[$1]=$2;next}{print $0,a[$1]}' file2 file1 > output 在这个命令,我们首先使用NR==FNR来判断是否是第一个文件,如果是的话,将file2的第一列作为数组a的索引,第二列作为值。然后使用next来跳过接下来的命令。 接着,对于file1的每一行,我们打印$0(表示整行内容),和数组a对应索引的值。这样就完成两个文件的列的合并。 最后把结果输出到output文件。 这样,我们就用awk合并了两个文件的列。当然,这只是一个简单的例子,awk还有很多其他功能和用法,可以根据实际需求来进行灵活的处理。 ### 回答3: 在awk,我们可以使用多种方式合并两个文件的列。这里我将介绍两种常见的方法: 方法一:使用NR和FNR变量进行合并 我们可以使用NR和FNR这两个内置变量来实现文件列的合并。NR表示当前正在处理的记录编号,而FNR表示当前文件的记录编号。当awk开始处理第二个文件时,FNR重新从1开始计数。因此,我们可以利用这一特性来判断当前处理的是第一个文件还是第二个文件。下面是一个示例代码: ```awk awk '{printf "%s ", $0} FNR==NR {a[FNR]=$0; next} {print a[FNR]}' file1.txt file2.txt ``` 这个命令会将file1.txt和file2.txt的每一行合并到一行两个文件的列用空格分隔。注意,file1.txt应该在file2.txt之前出现。 方法二:使用paste命令 除了使用awk,我们还可以使用paste命令来合并两个文件的列。paste命令可以将多个文件的对应行合并到一行,并且可以选择使用不同的分隔符。下面是一个示例代码: ```shell paste -d' ' file1.txt file2.txt ``` 这个命令会将file1.txt和file2.txt的每一行合并到一行两个文件的列用空格分隔。可以根据需要选择不同的分隔符。 无论使用awk还是paste命令,我们都可以根据具体的需求来调整代码。希望这些方法能帮助到您!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值