awk 判断最后一行_Awk处理多行文本组成的单元类型

概要:利用awk的各项分隔符选项,实现灵活的多文本记录行的处理。

一、背景

一个同事,有一个百万级的文本文件,多个行组成一个单元,每个单元存在很多冗余的信息,需要针对每个单元筛选出需要的信息,组成一行数据,完成最后的输出。

简化说明下:

test.txt文件:

age=10;

like=pp;

end>

age=12;

end>

age=13;

like=pp2;

end>

1、 一个单元,由“”结束;单元实际有很多其他行数据,这里简化为保留几行作为演示说明;

2、 需要筛选出“name”和“like”行,组成一行进行输出;其中,可能有的单元“like”会缺失,输出的时候就留空白;

3、 最后输出结果为:

name=zhangh; like=pp;

name=zhangh2;

name=zhangh3; like=pp2;

二、实现

考虑了下,这样的需求,百万级的文本文件通过手工处理肯定不现实,而这恰恰是awk的优势,故决定使用awk简单实现如下。

1、编写awkfile

BEGIN{

RS="end>";ORS="";FS=""

}

{

a=""

b=""

for(i=1;i<=NF;i++)

{ if(index($i,"name")>0)

{

split($i,k," ")

a=k[2]

}

else if(index($i,"like")>0)

{

b=$i

}

}

print a,b

}

2、执行命令为:awk -f awkfile test.txt

3、运行结果为

name=zhangh; like=pp;

name=zhangh2;

name=zhangh3; like=pp2;

三、总结

Awk是确确实实的一门编程语言,功能也比较丰富。针对awk的命令选项,查看原始的英文注释,记忆会更深刻。

如下对使用到的awk信息,进行简单的说明:

195855fe3fa3a41501325272851d88d1.png

NF(The number of fields in the current input record. ),输入文本记录的字段信息;

FS (The input field separator, a space by default. ),输入文本字段的分隔符号;

OFS (The output field separator, a space by default. ),输出文本字段的分隔符号;

RS (The input record separator, by default a newline. ),输入文件记录的分隔符号,默认是一行作为一条记录,本文以“end>”作为记录的分隔记录;

ORS (The output record separator, by default a newline. ),输出文件记录的分隔符号,默认是一行作为一条记录,本文以“”作为记录的分隔记录;所以在本文实际可以不用设置也可以达到同样的效果。

函数split (string, array, field separator)

第一个参数为需要切割的字符串,切割的结果存储到第二个参数中,第三个参数作为分隔符。

如果第三个参数没有提供,awk就默认使用当前FS值。

因为本文在处理中“FS="",将”FS分隔符指定了“”,所以在调用split的时候,需要明确指定分隔符。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值