AWK实现两文本关联join

背景:
join是数据处理领域中非常经典的技巧,绝大多数数据库都支持该用法,现在我们研究下AWK命令是如何实现 join的~


我们先看看awk中的两个自身变量,NRFNR

awk可以指定同时读取多个文件,按照指定的先后顺序,逐个读取

NR 指的是awk所读取到所有记录(包括多个文件)的行数索引号,大概是Number Of Record的意思。

FNR 指的是awk所读取到的每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始,大概是File Number Of Record的意思。

下面测试下 NRFNR 的区别:

先创建两个简单文件 a.txt 和 b.txt:

[root@VM_0_17_redhat ~]# cat a.txt 
1,a-1
2,a-2
3,a-3
4,a-4

[root@VM_0_17_redhat ~]# cat b.txt 
2,b-2
4,b-4
5,b-5

用awk命令依次读取这两个文件:
这里写图片描述
这里写图片描述
可以很清楚地看到,FNR在读取到第二个文件时,该变量值重置为1

由这点可以得出一个规则:
当 NR==FNR 的时候,读取到的内容为第一个文件的内容,当 NR!=FNR 的时候,读取到的内容是第二个文件的!


如何利用该规则实现join:

awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR{print $0,a[$1]}' a.txt b.txt

这里写图片描述

可以看到,该结果其实就是b.txt left join a.txt 的结果!

具体分析:

第一部分:

NR==FNR{a[$1]=$2;}

a是一个数组;当NR==FNR,也就是读取第一个文件的内容(第一个文件就是后面的a.txt),以a.txt中的$1作为数组索引号,以a.txt中的$2作为数组的值;

因此,第一部分过后,有了一个数组a,具体的值为 a[1]=”a-2″a[2]=”a-2″a[3]=”a-3″a[4]=”a-4″

第二部分:

NR!=FNR{print $0,a[$1]}

当NR!=FNR时候,也就是读取第二个文件的内容(b.txt),print $0(打印b.txt中的内容),以及a[$1],这里的含义是以b.txt中的$1为索引号(2,4,5),去数组a中获取值,即获取a[2],a[4],a[5]三个值,因为之前数组a中的索引号有1,2,3,4;故a[2]=”a-2″a[4]=”a-4″a[5]为空


如果是将两个文件做内关联:

awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && a[$1] {print $0,a[$1]}' a.txt b.txt

这里写图片描述
关键点:NR!=FNR && a[$1],如果a[$1]存在即为true,这样就能去除b.txt中存在但a.txt中不存在的行

也可以写成 $1 in a

awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && $1 in a {print $0,a[$1]}' a.txt b.txt

这里写图片描述

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值