概要:利用awk的各项分隔符选项,实现灵活的多文本记录行的处理。
一、背景
一个同事,有一个百万级的文本文件,多个行组成一个单元,每个单元存在很多冗余的信息,需要针对每个单元筛选出需要的信息,组成一行数据,完成最后的输出。
简化说明下:
test.txt文件:
age=10;
like=pp;
end>
age=12;
end>
age=13;
like=pp2;
end>
1、 一个单元,由“”结束;单元实际有很多其他行数据,这里简化为保留几行作为演示说明;
2、 需要筛选出“name”和“like”行,组成一行进行输出;其中,可能有的单元“like”会缺失,输出的时候就留空白;
3、 最后输出结果为:
name=zhangh; like=pp;
name=zhangh2;
name=zhangh3; like=pp2;
二、实现
考虑了下,这样的需求,百万级的文本文件通过手工处理肯定不现实,而这恰恰是awk的优势,故决定使用awk简单实现如下。
1、编写awkfile:
BEGIN{
RS="end>";ORS="";FS=""
}
{
a=""
b=""
for(i=1;i<=NF;i++)
{ if(index($i,"name")>0)
{
split($i,k," ")
a=k[2]
}
else if(index($i,"like")>0)
{
b=$i
}
}
print a,b
}
2、执行命令为:awk -f awkfile test.txt
3、运行结果为:
name=zhangh; like=pp;
name=zhangh2;
name=zhangh3; like=pp2;
三、总结
Awk是确确实实的一门编程语言,功能也比较丰富。针对awk的命令选项,查看原始的英文注释,记忆会更深刻。
如下对使用到的awk信息,进行简单的说明:
NF(The number of fields in the current input record. ),输入文本记录的字段信息;
FS (The input field separator, a space by default. ),输入文本字段的分隔符号;
OFS (The output field separator, a space by default. ),输出文本字段的分隔符号;
RS (The input record separator, by default a newline. ),输入文件记录的分隔符号,默认是一行作为一条记录,本文以“end>”作为记录的分隔记录;
ORS (The output record separator, by default a newline. ),输出文件记录的分隔符号,默认是一行作为一条记录,本文以“”作为记录的分隔记录;所以在本文实际可以不用设置也可以达到同样的效果。
函数split (string, array, field separator)
第一个参数为需要切割的字符串,切割的结果存储到第二个参数中,第三个参数作为分隔符。
如果第三个参数没有提供,awk就默认使用当前FS值。
因为本文在处理中“FS="",将”FS分隔符指定了“”,所以在调用split的时候,需要明确指定分隔符。