awk 判断最后一行_Awk处理多行文本组成的单元类型

最新推荐文章于 2022-09-26 08:07:04 发布

小叮当做事小丁当

最新推荐文章于 2022-09-26 08:07:04 发布

阅读量230

点赞数

文章标签： awk 判断最后一行

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42634811/article/details/112127498

版权

概要：利用awk的各项分隔符选项，实现灵活的多文本记录行的处理。

一、背景

一个同事，有一个百万级的文本文件，多个行组成一个单元，每个单元存在很多冗余的信息，需要针对每个单元筛选出需要的信息，组成一行数据，完成最后的输出。

简化说明下：

test.txt文件:

age=10;

like=pp;

end>

age=12;

end>

age=13;

like=pp2;

end>

1、一个单元，由“”结束；单元实际有很多其他行数据，这里简化为保留几行作为演示说明；

2、需要筛选出“name”和“like”行，组成一行进行输出；其中，可能有的单元“like”会缺失，输出的时候就留空白；

3、最后输出结果为：

name=zhangh; like=pp;

name=zhangh2;

name=zhangh3; like=pp2;

二、实现

考虑了下，这样的需求，百万级的文本文件通过手工处理肯定不现实，而这恰恰是awk的优势，故决定使用awk简单实现如下。

1、编写awkfile：

BEGIN{

RS="end>";ORS="";FS=""

}

{

a=""

b=""

for(i=1;i<=NF;i++)

{ if(index($i,"name")>0)

{

split($i,k," ")

a=k[2]

}

else if(index($i,"like")>0)

{

b=$i

}

}

print a,b

}

2、执行命令为：awk -f awkfile test.txt

3、运行结果为：

name=zhangh; like=pp;

name=zhangh2;

name=zhangh3; like=pp2;

三、总结

Awk是确确实实的一门编程语言，功能也比较丰富。针对awk的命令选项，查看原始的英文注释，记忆会更深刻。

如下对使用到的awk信息，进行简单的说明：

NF(The number of fields in the current input record. )，输入文本记录的字段信息；

FS (The input field separator, a space by default. )，输入文本字段的分隔符号；

OFS (The output field separator, a space by default. )，输出文本字段的分隔符号；

RS (The input record separator, by default a newline. )，输入文件记录的分隔符号，默认是一行作为一条记录，本文以“end>”作为记录的分隔记录；

ORS (The output record separator, by default a newline. )，输出文件记录的分隔符号，默认是一行作为一条记录，本文以“”作为记录的分隔记录；所以在本文实际可以不用设置也可以达到同样的效果。

函数split (string, array, field separator)

第一个参数为需要切割的字符串，切割的结果存储到第二个参数中，第三个参数作为分隔符。

如果第三个参数没有提供，awk就默认使用当前FS值。

因为本文在处理中“FS=""，将”FS分隔符指定了“”，所以在调用split的时候，需要明确指定分隔符。

小叮当做事小丁当

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。