Linux Shell中使用awk完成两个文件的关联Join

圣☞摧枯拉朽

于 2020-09-21 23:11:27 发布

阅读量2.8k

点赞数 4

分类专栏： ETL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011500419/article/details/108721385

版权

ETL 专栏收录该内容

14 篇文章

订阅专栏

本文介绍如何利用Shell中的awk命令实现两个文件的左连接和内连接操作，通过实例展示了如何利用awk自身的变量NR和FNR来区分不同文件的行数索引，从而实现文件之间的关联。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Shell中的awk命令是非常强大的，有很多书籍专门介绍awk的。本文介绍的只是其中很小的一个点，使用awk命令完成两个文件的关联join。

先看看awk中的两个自身变量，NR和FNR。 awk可以指定同时读取多个文件，按照指定的先后顺序，逐个读取。

NR指的是awk所读取到所有记录（包括多个文件）的行数索引号，大概是Number Of Record的意思。

FNR只的是awk所读取到的每个文件中的行数索引号，当文件发生切换时候，FNR重新从1开始，大概是File Number Of Record的意思。

有两个简单的文件：

[liuxiaowen@getway tmp]$ cat a.txt
1,a-1
2,a-2
3,a-3
4,a-4
[liuxiaowen@getway tmp]$ cat b.txt
2,b-2
4,b-4
5,b-5

上面第一个命令中，awk只读取一个文件，因此NR和FNR是一样的；

第二个命令有两个文件，从NR=5开始读取第二个文件b.txt。

由这点可以得出一个规则：当NR==FNR时候，读取到的内容为第一个文件的内容，当NR!=FNR时候，读取到的内容是第二个文件的。

看下面的命令：

[liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR{print $0,a[$1]}' b.txt a.txt
1,a-1
2,a-2 b-2
3,a-3
4,a-4 b-4

从输出的结果来看，已经将两个文件通过第一列的值join起来，准确的说是a.txt left outer join b.txt.

解释一下这个命令：

第一部分：

NR==FNR{a[$1]=$2;}

a是一个数组；当NR==FNR，也就是读取第一个文件的内容（第一个文件就是后面的b.txt），以b.txt中的$1作为数组索引号，以b.txt中的$2作为数组的值；

因此，第一部分过后，有了一个数组a,具体的值为 a[2]=”b-2″, a[4]=”b-4″, a[5]=”b-5″

再看第二部分：

NR!=FNR{print $0,a[$1]}

当NR!=FNR时候，也就是读取第二个文件的内容（a.txt），print $0（打印a.txt中的内容），以及a[$1]，这里的含义是以a.txt中的$1为索引号，去数组a中获取值，因为之前数组a中的索引号有2,4,5；因此a.txt中第一列为2和4的记录从数组a中获取到了值，1,3,5在数组a中不存在。

如果是将两个文件做内关联：

[liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && a[$1] {print $0,a[$1]}' b.txt a.txt
2,a-2 b-2
4,a-4 b-4

变了一个条件：NR!=FNR && a[$1]

读取第二个文件的内容，并且第二个文件的$1在数组中存在，也可以写成 $1 in a

[liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && $1 in a {print $0,a[$1]}' b.txt a.txt
2,a-2 b-2
4,a-4 b-4

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。