现有文件a内容如下:
00
[info] fdsafasdf 1 1
22
fsdfsadf 1 1
555
dd
rr
dd
fsdaf 3 3
44
需要获取最后一个关键字段‘1 1’到第一个关键字段‘3 3’之间的内容
处理命令为:
sed -ne ":begin; { /3 3/! { $! { N; b begin }; }; s/.*\(1 1[^1 1]*.*3 3\)/\1/p; };" a
命名解析:
:begin;,类似定义函数。
/3 3/!,一个正则匹配,感叹号为退出匹配,
表示a文件的结尾,!表示非。
N;,表示将当前行内容追加到缓存区。
b begin,表示跳转到begin函数(标记)
综上,:begin; { /3 3/! { $! { N; b begin }; };解析为,定义了一个begin的函数,匹配逐行关键字段3 3,如果没有匹配到并且该匹配行非文件结尾行,则将该行添加到缓存区,重新开始跳转到begin进行下一行匹配。当匹配到第一个关键字段3 3,则跳出循环。
s/.*\(1 1[^1 1]*.*3 3\)/\1/p;
,是对缓存区内容的正则匹配,表示匹配1 1开头,3 3结尾,并且中间不存在1 1关键字段,\1代表匹配组()的内容。S为替换,所以该解析为:只展示缓存区最后一个1 1到第一个3 3的内容。
截取第一个11到第一个dd之间内容的做法:
sed -n '/11/,/dd/p' a
注意sed是循环处理单行,要处理多行则需要定义区间,而测试过程中定义区间使用条件限制,如1 1[^1 1]是没有匹配成功,也可能是测试方法的问题。
另外一个解决思路是循环读取文件,拼接成一行,再来处理,关键字段,然后再还原;或者for循环,判断每一行是否关键字,记录对应的信息。
参考资料: