linux 之sed awk

最新推荐文章于 2024-06-29 20:45:25 发布

俊来

最新推荐文章于 2024-06-29 20:45:25 发布

阅读量408

点赞数

分类专栏： SYS

SYS 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

grep 查询字符串（正则）

sed 处理行

awk 处理列

grep 用于搜索如 ps -ef | grep tmc netsate -anp |grep port

grep

grep是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。

一般格式 grep [选项] 基本正则式 [文件]

选项：

-c 不输出内容只统计匹配行数

grep -c "123" filename 相当于 grep "123" filename | wc -l

-i 不区分大小写

grep -i "ok" filename 匹配包含ok,Ok,oK,OK的所有行

-h 查询多文件时不显示文件名

grep -h "123" *.txt 不加-h时会在每一行前显示该行所在文件名

-l 查询多文件是只显示包含匹配字符的文件名

-n 查询匹配行及行号

-v 显示不包含匹配文本的所有行

-? 同时显示匹配行上下的？行

如：grep-2 "123" filename同时显示匹配行的上下2行。

正则：

^ 锚定行的开始

如：'^grep'匹配所有以grep开头的行。

$ 锚定行的结束

如：'grep$'匹配所有以grep结尾的行。

. 匹配一个非换行符的字符

如：'gr.p'匹配gr后接一个任意字符，然后是p。

* 匹配零个或多个先前字符

如：'*grep'匹配所有一个或多个空格后紧跟grep的行。

.*一起用代表任意字符。

[] 匹配一个指定范围内的字符

如'[Gg]rep'匹配Grep和grep。

[^] 匹配一个不在指定范围内的字符

如：'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头，紧跟rep的行。

.. 标记匹配字符

如' love '，love被标记为1。

\< 锚定单词的开始

如:'\<grep'匹配包含以grep开头的单词的行。

\> 锚定单词的结束

如'grep\>'匹配包含以grep结尾的单词的行。

\b 单词锁定符

如:'\bgrep\b'只匹配grep。

特殊事项：

1.引号的使用

首先说明引号的作用，在shell中使用grep一般要打引号，例如："grep" 这样做，一是防止被误解为shell命令，二是可以查找多个单词的字符串。如，"aaa bbb"。如果没引号，将会把bbb误认为文件。

一般在grep中输入字符串参数是打双引号，如：$mystr="aaa";grep "$mystr" file，这样$mystr会先被替换成aaa，执行操作是grep "aaa" file。而在单引号中，$mystr不被识别，因此，单引号一般用在正则表达式的匹配上，这样可防止于grep中使用的模式与shell命令中的特殊方式混淆。

2.egrep和 grep -E的元字符扩展

egrep是扩展的grep，支持基本正则和扩展正则，等同于grep -E。扩展集如下：

+ 匹配一个或多个先前的字符。

如：'[a-z]+able'，匹配一个或多个小写字母后跟able的串。

a|b|c 匹配a或b或c。

如：grep|sed匹配grep或sed

( ) 分组符号

如：love(able|rs)匹配loveable或lovers。

egrep还支持将一个文件作为保存的字符串，然后将之传给egrep作为参数，需使用-f开关。

3.POSIX字符类

为了在不同国家的字符编码中保持一至，POSIX(The PortableOperating System Interface)增加了特殊的字符类。

[:alnum:]文字数字字符

[:alpha:]文字字符

[:digit:]数字字符

[:graph:]非空字符（非空格、控制字符）

[:lower:]小写字符

[:cntrl:]控制字符

[:print::]非空字符（包括空格）

[:punct:]标点符号

[:space:]所有空白字符

[:upper:]大写字符

[:xdigit:]十六进制数字（0-9，a-f，A-F）

grep支持这种模式，例如：grep'[[:upper:]][[:lower:]]' file 。使用时要打双中括号。

awk

awk 是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。

选项

-F 指定输入文件折分隔符。

-f 从脚本文件中读取awk命令。

模式和操作：

awk脚本是由模式和操作组成的：

pattern {action} 如$ awk '/root/' test，或$ awk'$3 < 100' test。

模式是用来匹配行的，操作是对匹配结果执行的。两者是可选的，如果没有模式，则action应用到全部记录，如果没有action，则输出匹配全部记录。默认情况下，每一个输入行都是一条记录，但用户可通过RS变量指定不同的分隔符进行分隔。

模式：

/正则表达式/：使用通配符的扩展集。

关系表达式：可以用运算符表中的关系运算符进行操作，可以是字符串或数字的比较。

模式匹配表达式：用运算符~(匹配)和~!(不匹配)。

操作：

操作由一个或多个命令、函数、表达式组成，之间由换行符或分号隔开，并位于大括号内。主要有四部份：

变量或数组赋值

输出命令

内置函数

控制流命令

记录和域：

记录：

awk把每一个以换行符结束的行称为一个记录。

记录分隔符：默认的输入和输出的分隔符都是回车，保存在内建变量ORS和RS中。

$0变量：它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。

变量NR：一个计数器，每处理完一条记录，NR的值就增加1。如$ awk '{print NR,$0}' test将输出test文件中所有记录，并在记录前显示记录号。

域：

记录中每个单词称做“域”，默认情况下以空格或tab分隔。awk可跟踪域的个数，并在内建变量NF中保存该值。如$ awk '{print $1,$3}' test将打印test文件中第一和第三个以空格分开的列(域)。

内建变量FS保存输入域分隔符的值，默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$awk -F'[:\t]' '{print $1,$3}' test，表示以空格、冒号和tab作为分隔符。

输出域的分隔符默认是一个空格，保存在OFS中。如$ awk -F:'{print $1,$5}' test，$1和$5间的逗号就是OFS的值。

几个实例：

awk '/^(no|so)/'test-----打印所有以模式no或so开头的行。

awk'/^[ns]/{print $1}' test-----如果记录以n或s开头，就打印这个记录。

awk '$1 ~/[0-9][0-9]$/(print$1}' test-----如果第一个域以两个数字结束就打印这个记录。

awk '$1 != 10' test-----如果第一个域不等于10就打印该行。

$ awk '/^root/,/^mysql/' test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录，则继续打印直到下一个以正则表达式mysql开头的记录为止，或到文件末尾。

awk编程

变量：

在awk中，变量不需要定义就可以直接使用，变量类型可以是数字或字符串。

在awk脚本中，这些变量使用起来就象是在脚本中建立的一样。注意，如果参数前面出现test，那么在BEGIN语句中的变量就不能被使用。

域变量也可被赋值和修改。例如：$ awk '$1=="root"{$1 ="test";print}' test，如果第一个域的值是“root”，则把它赋值为“test”，字符串一定要用双引号。

内建变量的使用如。$ awk -F: '{IGNORECASE=1;$1 == "MARY"{print ,$1,$2,$NF}'test，把IGNORECASE设为1代表忽略大小写，打印第一个域是mary的记录数、第一个域、第二个域和最后一个域。

awk的环境变量

变量	描述
$n	当前记录的第n个字段，字段间由FS分隔。
$0	完整的输入记录。
ARGC	命令行参数的数目。
ARGIND	命令行中当前文件的位置(从0开始算)。
ARGV	包含命令行参数的数组。
CONVFMT	数字转换格式(默认值为%.6g)
ENVIRON	环境变量关联数组。
ERRNO	最后一个系统错误的描述。
FIELDWIDTHS	字段宽度列表(用空格键分隔)。
FILENAME	当前文件名。
FNR	同NR，但相对于当前文件。
FS	字段分隔符(默认是任何空格)。
IGNORECASE	如果为真，则进行忽略大小写的匹配。
NF	当前记录中的字段数。
NR	当前记录数。
OFMT	数字的输出格式(默认值是%.6g)。
OFS	输出字段分隔符(默认值是一个空格)。
ORS	输出记录分隔符(默认值是一个换行符)。
RLENGTH	由match函数所匹配的字符串的长度。
RS	记录分隔符(默认是一个换行符)。
RSTART	由match函数所匹配的字符串的第一个位置。
SUBSEP	数组下标分隔符(默认值是\034)。

BEGIN模块：

BEGIN 模块后紧跟着动作块，这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值，如OFS,RS和FS等，以及打印标题。如：$ awk'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print$1,$2,$3} test。

END模块：

END不匹配任何的输入文件，但是执行动作块中的所有动作，它在整个输入文件处理完成后被执行。如$ awk 'END{print "The numberof records is" NR}' test，上式将打印所有被处理的记录数。

重定向和管道：

awk 可使用shell的重定向符进行重定向输出，如：$ awk '$1 = 100{print $1 > "output_file" }' test。上式表示如果第一个域的值等于100，则把它输出到output_file中。也可以用>>来重定向输出，但不清空文件，只做追加操作。

输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。

system函数可以在awk中执行linux的命令。如：$ awk'BEGIN{system("clear")'。

fflush函数用以刷新输出缓冲区，如果没有参数，就刷新标准输出的缓冲区，如果以空字符串为参数，如fflush(""),则刷新所有文件和管道的输出缓冲区。

流程控制：

awk中的流程控制语句是从C语言中借鉴过来的，可控制程序的流程。

条件语句if/else else if。

循环有三种:while循环；for循环；special for循环。

break用于在满足条件的情况下跳出循环。

continue用于在满足条件的情况下忽略后面的语句，直接返回循环的顶端。

next语句从输入文件中读取一行，然后从头开始执行awk脚本。如：

{if ($1~/test/){next}else {print}}

exit语句用于结束awk程序，但不会略过END块。

数组：

用变量作为数组下标。如：$awk {name[x++]=$2};END{for(i=0;i<NR;i++) print i,name[i]}'test。在END 模块中，for循环被用于循环整个数组：{for (item in arrayname){print

arrayname[item]}}打印的顺序是随机的。

用域值作为数组的下标。如:$ awk '{count[$1]++}END{for(name in count) print name,count[name]}' test。该语句将打印$1中字符串出现的次数。

delete 函数用于删除数组元素。如：$ awk '{line[x++]=$1} END{for(x in line) delete(line[x])}' test。

awk的内建函数：

字符串函数：

sub函数匹配记录中最大、最靠左边的子字符串的正则表达式，并用替换字符串替换这些字符串。如：$ awk '{ sub(/test/, "mytest"); print }' testfile

gsub函数作用如sub，在整个文档中进行匹配。如：$ awk '{ gsub(/test/, "mytest"); print }' testfile

index函数返回子字符串第一次被匹配的位置，偏移量从位置1开始。如：$ awk '{print index("test", "mytest") }' testfile

split函数可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供，则按当前FS值进行分割。如：$ awk '{ split( "20:18:00", time,":" ); print time[2] }'

时间函数：

systime函数返回从1970年1月1日开始到当前时间(不计闰年)的整秒数。

例： $ awk '{now = systime(); print now }'

内建数学函数：

基本同C语言

自定义函数：

在awk中还可自定义函数，格式如下：

function name ( parameter, parameter,parameter, ... ) {

statements

returnexpression

}

sed

sed是一个非交互性文本流编辑器。sed一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”，接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。

定位：

可用行号或模式来定位行。有如下方式：

x x为行号，如1

x，y 表范围，如2,5表示2到5行

/pattern/ 包含此模式的行

/pattern/pattern/ 包含2个模式的行

x，/pattern/ 通过行号和模式定位

Sed编辑命令：

a\ 在当前行后面加入一行文本。

c\ 用新的文本改变本行的文本。

d 从模板块位置删除行。

D 删除模板块的第一行。

i\ 在当前行上面插入文本。

h 拷贝模板块的内容到内存中的缓冲区。

H 追加模板块的内容到内存中的缓冲区

g 获得内存缓冲区的内容，并替代当前模板块中的文本。

G 获得内存缓冲区的内容，并追加到当前模板块文本的后面。

l 列表不能打印字符的清单。

n 读取下一个输入行，用下一个命令处理新的行而不是用第一个命令。

N 追加下一个输入行到模板块后面并在二者间嵌入一个新行，改变当前行号码。

p 打印模板块的行。

P 打印模板块的第一行。

q 退出Sed。

r 从file中读行。

! 表示后面的命令对所有没有被选定的行发生作用。

s 替换。

= 打印当前行号码。

# 把注释扩展到下一个换行符以前。

选项：

-e 允许多点编辑。

-h 打印帮助，并显示bug列表的地址。

-n 取消默认输出。

-f 引导sed脚本文件名。

-V 打印版本和版权信息。

实例：

d删除

$ sed '2,$d' example 删除example文件的第二行到末尾所有行。

$ sed '$d' example 删除example文件的最后一行。

$ sed '/test/'d example- 删除example文件所有包含test的行。

s替换

$ sed 's/test/mytest/g'example 在整行范围内把test替换为mytest。如果没有g标记，则只有每行第一个匹配的test被替换成mytest。

$ sed -n's/^test/mytest/p' example 和p标志一起使用表示只打印那些发生替换的行。

$ sed's/^192.168.0.1/&localhost/' example &符号表示替换换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加localhost，变成192.168.0.1localhost。

$ sed -n's/ love able/\1rs/p' example love被标记为1，所有loveable会被替换成lovers，而且替换的行会被打印出来。

$ sed 's#10#100#g'example 不论什么字符，紧跟着s命令的都被认为是新的分隔符，所以，“#”在这里是分隔符，代替了默认的“/”分隔符。表示把所有10替换成100。

，逗号选定行的范围

$ sed -n'/test/,/check/p' example 所有在模板test和check所确定的范围内的行都被打印。

$ sed'/test/,/check/s/$/sed test/' example 对于模板test和west之间的行，每行的末尾用字符串sed test替换。

e 多点编辑

$ sed -e '1,5d' -e's/test/check/' example e选项允许在同一行里执行多条命令。

$ sed--expression='s/test/check/' --expression='/love/d' example 一个比-e更好的命令是--expression。它能给sed表达式赋值。

a 追加命令

$ sed'/^test/a\\--->this is a example' example< 'this is a example'被追加到以test开头的行后面，sed要求命令a后面有一个反斜杠。

n 下一个

$ sed '/test/{ n;s/aa/bb/; }' example 如果test被匹配，则移动到匹配行的下一行，替换这一行的aa，变为bb，并打印该行，然后继续。

q 退出

$ sed '10q' example 打印完第10行后，退出sed。

总结与思考：

1.awk，sed等命令功能强大且高效，比循环每次读一行处理要快。

2.shell脚本中的参数如何传到这些命令中？

俊来

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录