awk中的字符串处理函数

最新推荐文章于 2024-09-20 16:58:17 发布

happy_abby

最新推荐文章于 2024-09-20 16:58:17 发布

阅读量156

点赞数

分类专栏： linux 文章标签： awk

linux 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

背景：使用awk从日志中解析出对应的字段；
日志格式如下所示，需要解析出ip、date、url以及action取值；其中action的位置不固定，不一定是作为第一个参数出现
10.10.10.10 - - [31/Jul/2013:03:30:44 +0000] GET /url?action=dosometion&a=0&b=20&c=0&d=66&e=3&f=3&g=20 HTTP/1.1 "200"

分析：前面三个字段都可以通过简单的分割来获取，只是最后一个action字段，因为位置不固定，导致无法直接通过分割获取。好在，awk提供了相关的字符串函数供我们使用。
gsub(r,s) 在整个$0中用s替代r
gsub(r,s,t) 在整个t中用s替代r
index(s,t) 返回s中字符串t的第一位置
length(s) 返回s长度
match(s,r) 测试s是否包含匹配r的字符串
split(s,a,fs) 在fs上将s分成序列a
sprint(fmt,exp) 返回经fmt格式化后的exp
sub(r,s) 用$0中最左边最长的子串代替s
substr(s,p) 返回字符串s中从p开始的后缀部分
substr(s,p,n) 返回字符串s中从p开始长度为n的后缀部分

从上面的函数中，我们发现，substr这个函数可以帮助我们取回想要的字符串；只要通过index获取到对应的位置；但是为了定位真正的长度，需要split配合使用，找到结束符&的位置。

实现实例：
awk -F'[ ?&=]' '{split($0,mydata,"action="); print $1,$4,$7, substr(mydata[2], 0, index(mydata[2], "&")-1)}' access.log-20130731 > tmp2.log

其中，split把整行划分为两部分，“action=”前面的部分和后面的部分。之后，通过index函数，定位“action=”后第一个出现的“&”的位置，并通过substr函数，把action的值取出来。需要注意的是，substr使用的时候，函数中的index函数返回的位置，必须是基于substr中传入的字符串而言，否则，会出现错误的结果。

提醒：基于字符串的操作，是非常耗性能的。如果不是必须，不要使用字符串操作函数，尽可能利用分割获取对应的取值。上述例子，同样大小的文件，如果action的位置固定，直接使用分割获取和采用字符串函数获取，性能相差几十倍以上。