文本三剑客awk

目录

什么是awk?

awk的功能

AWK的格式

内置变量

$0打印所有 

用awk切片/etc/passwd下的第一列和第四列

只打印第三行

打印第三行到第五行

打印第三行和第五行 

用正则表达式打印大于等于三的行和小于等于五的行 

 奇偶打印 ​编辑

getline

没有重定向没有管道符就是打印奇偶行

文件内容匹配过滤打印

awk的条件判断打印

awk的三元表达式

awk精确筛选

awk去重

把网址用awk单独切出来

重点题型

日志分割

取小数点几位和取整数

提取host.txt主机名后再放回host.txt文件 


什么是awk?

在 Linux/UNIX 系统中,AWK 是一个功能强大的编辑工具,逐行读取输入文本,默认以空格或tab键作为分隔符作为分隔,并按模式或者条件执行编辑命今。以空格作为分割符,多个空格它会自动压缩成一个,AWK信息的读入也是逐行指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理 可以在无交互 的情况下实现相当复杂的文本操作,被广泛应用于 Shell脚本,完成各种自动化配置任务。

awk的功能

1.按照命令找指定的行对其进行切片取值

2.找到的行打印,操作AWK默认操作就是打印

AWK的格式

awk ‘<操作符><怎么干>'<处理对象>

1.先看BEGIN{action}这个模块是读取操作,读文件的所有行,所有读取完毕,然后一次执行

2.END{action}打印,输出结果,对前面的的结果,条件判断,还可以用代码接着操作

总结先对行执行操作再输出结果

sed是对行进行处理而AWK则是先对行进行处理然后再分列处理也就是切片

-F指定分隔符

awk -F选项用于指定输入文件的字段分隔符,常用于处理CSV格式的数据文件或其他使用特定分隔符的数据文件。-F后面跟着的是一个分隔符字符串,比如:

awk -F',' '{print $1,$2}' data.csv

其中,-F','表示使用逗号作为输入文件的字段分隔符。$1$2分别表示输入文件中的第1列和第2列。data.csv是输入文件的名称。

除了逗号,-F选项还可以指定其他字符作为输入文件的分隔符,比如制表符、空格等。如果输入文件的分隔符不是单个字符,也可以使用正则表达式作为分隔符。

如果不指定-F选项,则默认使用空格作为输入文件的字段分隔符。在这种情况下,输入文件中每个字段的长度和位置会被用来分隔字段。

-V变量赋值

注意一定是单引号:模式或条件 {操作]

{ }外指定条件,{ }内指定操作。

用逗号指定连续的行,用 指定不连续的行。&&表示”且“

awk {print $1,$2,$3}

内置变量

awk命令是一个文本处理工具,它在处理文本数据时会使用到一些内置变量。这些内置变量包括:

  • FS:字段分隔符,用于指定输入文件的字段分隔符,默认是空格或制表符。

  • OFS:输出字段分隔符,用于指定输出文件的字段分隔符,默认是空格。

  • RS:行分隔符。awk从文件中读取资料时,将根据Rs的定义把资料切割成许多条记录,而awk一次仅读入一条记录进行处理。预设值是"\n"

  • ORS:输出记录分隔符,用于指定输出文件的记录分隔符,默认是换行符。

  • NF:当前处理的行的字段个数SNF表示最后一个字段

  • NR:当前处理行的的行号。

  • $0:整条记录的文本内容。

  • $1:当前记录的第1个字段。

  • $2:当前记录的第2个字段。

  • $n:当前记录的第n个字段。

使用这些内置变量可以方便地处理文本数据。例如,我们可以使用FS变量指定输入文件的分隔符,并使用$1$2变量获取输入文件中的第1列和第2列数据。下面是一个例子:

awk -F',' '{print $1,$2}' data.csv

在这个例子中,-F','表示使用逗号作为输入文件的字段分隔符,$1$2分别表示输入文件中的第1列和第2列数据。

除了这些内置变量,awk还提供了一些函数和流程控制语句,可以更加灵活地处理文本数据。

用的最多的就是

对行取列切片

假设我们有一个文本文件data.txt,其中包含了一些学生的成绩信息,每行包含了学生的姓名、语文成绩、数学成绩、英语成绩和总分,这些数据之间使用空格分隔。下面是一个示例:

张三 90 85 95 270
李四 85 90 80 255
王五 95 80 90 265

如果我们想要只输出学生的姓名和数学成绩,可以使用awk命令对行取列切片,具体做法如下:

awk '{print $1,$3}' data.txt

在这个命令中,{print $1,$3}表示对每一行进行操作,输出该行的第1个字段(姓名)和第3个字段(数学成绩),这样就实现了行取列切片的操作。执行该命令后,输出结果如下:

张三 85
李四 90
王五 80

可以看到,输出结果只包含了学生的姓名和数学成绩,其他数据被忽略了。这种方式非常方便,可以针对不同的需求快速地提取出需要的数据。

切记awk只能用单引号' '

默认就是1打印所有内容如果是0就不会打印内容

$0打印所有 

 

AWK他默认分隔符就是空格所有就算你里面打的再乱他也会自动给你分好 

 

 

用awk切片/etc/passwd下的第一列和第四列

awk -F ':' '{print $1,$4}' /etc/passwd

在这个命令中,-F ':'指定了输入文件的字段分隔符为冒号,{print $1,$4}表示对于每一行数据,输出其第1个字段和第4个字段。执行该命令后,会输出/etc/passwd文件中每行的第1个字段(用户名)和第4个字段(用户ID)

只打印第三行

 

 

打印第三行到第五行

 

打印第三行和第五行 

 

用正则表达式打印大于等于三的行和小于等于五的行 

 

 奇偶打印

 

这两个命令都是使用awk命令来对文件进行处理,具体的含义如下:

awk 'NR%2==0 {print}' 123.txt

这个命令中,awk用于处理文件123.txtNRawk中的一个内置变量,表示输入文件的行号。NR%2==0表示只处理行号为偶数的行,{print}表示输出该行数据。因此,执行该命令后,会输出123.txt文件中所有偶数行的数据。

awk 'NR%2==1 {print}' 123.txt

这个命令中,awk用于处理文件123.txtNR同样表示输入文件的行号。NR%2==1表示只处理行号为奇数的行,{print}同样表示输出该行数据。因此,执行该命令后,会输出123.txt文件中所有奇数行的数据。

这两个命令都是基于行号对文件进行过滤,只输出指定行数的数据。可以根据需要来指定行号的奇偶性,以便过滤出需要的数据。

也可以当做计算机

getline

awk命令中的getline函数用于从输入文件中读取一行数据,并将其赋值给指定的变量。getline函数的基本语法如下:

getline [var]

其中,var是一个变量名,用于存储读取的行数据。如果省略vargetline函数会将数据存储到内置变量$0中。

getline函数常用于处理复杂的数据文件,比如包含多行记录的文件。我们可以使用getline函数来读取输入文件中的一行数据,然后再使用while循环来处理该行数据,直到处理完整个数据文件。

下面是一个使用getline函数的例子,假设我们有一个文件data.txt,每个记录包含了学生的姓名、年龄、性别和成绩,这些数据之间用空格分隔。我们想要读取该文件中的数据,并将学生的成绩进行平均,然后输出每个学生的平均成绩。具体做法如下:

awk '{sum=0; n=0; while (getline line > 0) { split(line, fields); if (fields[1] == $1) { sum += fields[4]; n++; } else { print $1, sum/n; sum = fields[4]; n = 1; } } print $1, sum/n; }' data.txt

在这个命令中,我们使用了getline函数来读取文件中的一行数据,并使用while循环来对该行数据进行处理。在while循环中,我们使用split函数将行数据按照空格分隔成多个字段,然后根据学生姓名对成绩进行求和,统计学生的个数,并更新总和和个数。当遇到不同的学生姓名时,我们输出当前学生的平均成绩,并重置总和和个数,以便计算下一个学生的平均成绩。

该命令比较复杂,但可以借此来说明getline函数的用法和awk命令处理数据的灵活性。getline函数在处理复杂的数据文件时非常有用,可以帮助我们逐行读取数据并进行处理。需要注意的是,在使用getline函数时,必须要小心文件读取的位置和状态,以免出现不必要的错误。

没有重定向没有管道符就是打印奇偶行

 

当getline左石有管道符号或重定向符时,retline则作用定向输入文件,由于文件是刚打开,并没有被awk读入一行 而只是getline读入,所以qetline返回的是文件的第一行,而不是跳转至一行输入  

 

 

 

这个awk命令的作用是将123.txt文件中的所有行按照行号的奇偶性分别输出到不同的文件中。

具体地,命令的解释如下:

awk '{getline < "123txt"; print $0 > "456.txt";}' 123.txt
  • awk表示执行awk命令。

  • {getline < "123txt"; print $0 > "456.txt";}表示对于每一行数据,先从文件123.txt中读取一行数据,然后将这一行数据输出到文件456.txt中。

  • 123.txt表示指定输入文件为123.txt

具体的实现过程是,在执行该命令时,awk会遍历输入文件123.txt中的每一行,读取一行数据,并将其输出到文件456.txt中。由于awk默认是按行处理输入文件的数据的,因此可以直接使用getline函数来读取输入文件中的一行数据。

这个命令的效果是将123.txt文件中的奇数行输出到456.txt文件中,偶数行输出到控制台。因为每个输入行仅仅被读取了一次,所以输出到文件456.txt中的内容是原始输入文件123.txt中所有奇数行。输出到控制台中的是原始输入文件123.txt中所有偶数行。

重点题型

第一个getline是awk的一个内置函数,第二个没有重定向和管道符就是打印奇偶行第三个重定向就是从指定文件获取内容 管道符 | 复制变量

 

文件内容匹配过滤打印

第一个是以root为开头打印第二个是以nologin为结尾打印

head -n2 /etc/passwd | awk '/root/{print}'
head -n2 /etc/passwd | awk '/nologin$/{print}'

 

 

这个awk命令的作用是统计123.txt文件中的行数(即记录数)。

具体地,命令的解释如下:

awk 'BEGIN{x=1};{x++};END{print x}' 123.txt
  • BEGIN{x=1}表示在处理之前执行一个动作,将变量x的值初始化为1。

  • x++表示对于每一行数据,将变量x的值加1。

  • END{print x}表示在处理完成后执行一个动作,输出变量x的值。

  • 123.txt表示指定输入文件为123.txt

具体的实现过程是,在执行该命令时,awk会遍历输入文件123.txt中的每一行,将变量x的值加1。最后,输出变量x的值,即输入文件的行数。由于awk默认是按行处理输入文件的数据的,因此可以直接对每一行数据进行处理。

该命令的输出结果是10,即123.txt文件中包含10行数据。在这个awk命令中,初始化变量x的值为1,然后对每行数据进行一次计数操作,最后输出变量x的值,也就是123.txt文件的行数。

需要注意的是,在统计行数时,不包括文件末尾的空行,因此如果文件的最后一行是空行,则该命令会把空行也算作一行数据。如果需要排除文件末尾的空行,可以在处理每一行数据时,判断当前行是否为空行,如果是空行则不计数。

 

 

这个的意思就是遇见:就换行

awk的条件判断打印

 

这个awk命令的作用是从/etc/passwd文件中读取用户信息,然后仅输出UID大于500的用户信息。

具体地,命令的解释如下:

awk -F: '$3>500{print $0}' /etc/passwd
  • -F:表示将冒号(:)设置为字段分隔符。

  • $3>500表示判断第三个字段(即UID)是否大于500,如果大于,则执行下面的花括号中的命令。

  • {print $0}表示输出匹配条件的整个行数据,即输出/etc/passwd文件中UID大于500的用户信息。

  • /etc/passwd表示指定输入文件为/etc/passwd

具体的实现过程是,在执行该命令时,awk会读取/etc/passwd文件中的每一行,并使用冒号(:)作为字段分隔符来解析每个字段。然后,对于每一行数据,判断其第三个字段(即UID)是否大于500,如果是,则输出该行数据。

该命令的输出结果是/etc/passwd文件中UID大于500的用户信息。如果您需要输出特定字段的信息,可以在print语句中指定需要输出的字段。例如,如果您只需要输出用户名和UID,则可以使用{print $1, $3}来输出对应的字段信息。

还可以取反取所有大于10的

awk -F: '!($3<=1){print $0}' /etc/passwd

这个awk命令的作用是从/etc/passwd文件中读取用户信息,然后仅输出UID大于1的用户信息。

具体地,命令的解释如下:

  • -F:表示将冒号(:)设置为字段分隔符。

  • !($3<=1)表示判断第三个字段(即UID)是否小于等于1,如果是,则取反得到false,如果不是,则取反得到true

  • {print $0}表示输出匹配条件的整个行数据,即输出/etc/passwd文件中UID大于1的用户信息。

  • /etc/passwd表示指定输入文件为/etc/passwd

具体的实现过程是,在执行该命令时,awk会读取/etc/passwd文件中的每一行,并使用冒号(:)作为字段分隔符来解析每个字段。然后,对于每一行数据,判断其第三个字段(即UID)是否大于1,如果是,则输出该行数据。

需要注意的是,该命令的条件判断使用了取反操作符!,因此输出结果是UID大于1的用户信息。如果您需要输出特定字段的信息,可以在print语句中指定需要输出的字段。例如,如果您只需要输出用户名和UID,则可以使用{print $1, $3}来输出对应的字段信息。

awk的三元表达式

格式

awk '(条件表达式)?(A表达式或者指定值):(B表达式或者值)'

 

 

 

这个awk命令的作用是从/etc/passwd文件中读取用户信息,然后将用户的UID和GID中的最大值保存到变量max中,并将每个用户的完整信息输出。

具体地,命令的解释如下:

  • -F:表示将冒号(:)设置为字段分隔符。

  • $3表示/etc/passwd文件中的第三个字段,即用户的UID。

  • $4表示/etc/passwd文件中的第四个字段,即用户所属组的GID。

  • ($3>=$4)?$3:$4表示将变量max的值设为UID和GID中的最大值,如果UID大于等于GID,则取UID的值,否则取GID的值。

  • {print $0}表示输出当前行的完整信息,即输出/etc/passwd文件中的每一行数据。

  • /etc/passwd表示指定输入文件为/etc/passwd

具体的实现过程是,在执行该命令时,awk会读取/etc/passwd文件中的每一行数据,并使用冒号(:)作为字段分隔符来解析每个字段。然后,对于每一行数据,将变量max的值设置为UID和GID中的最大值,然后输出该行数据的完整信息。最后,将所有的行数据的完整信息都输出。

该命令的输出结果是/etc/passwd文件中所有用户的完整信息。在输出信息时,每个用户的UID和GID都会被比较,将最大值保存到变量max中,并在输出信息时显示变量max的值。

awk精确筛选

awk -F: '$7~"bash" {print $0}' /etc/passwd

这个awk命令的作用是从/etc/passwd文件中读取用户信息,然后过滤出使用bash作为默认Shell的用户信息,并将这些用户的完整信息输出。

具体命令解释如下:

  • -F:表示将冒号(:)设置为字段分隔符。

  • $7~"bash"表示使用~操作符进行模式匹配,查找/etc/passwd文件中的第七个字段,即Shell的类型。如果该字段中包含bash字符串,则匹配成功。

  • {print $0}表示输出当前行的完整信息,即输出/etc/passwd文件中符合匹配条件的行数据。

在执行该命令时,awk会读取/etc/passwd文件中的每一行数据,并使用冒号(:)作为字段分隔符来解析每个字段。然后,对于每一行数据,如果第七个字段中包含bash字符串,则输出该行数据的完整信息。最后,将所有符合匹配条件的行数据的完整信息都输出。

该命令的输出结果是/etc/passwd文件中使用bash作为默认Shell的用户的完整信息。

awk -F: '$7!~"nolongin" {print $0}' /etc/passwd

这个awk命令的作用是从/etc/passwd文件中读取用户信息,然后过滤出默认Shell不是nologin的用户信息,并将这些用户的完整信息输出。

具体命令解释如下:

  • -F:表示将冒号(:)设置为字段分隔符。

  • $7!~"nologin"表示使用!~操作符进行模式匹配,查找/etc/passwd文件中的第七个字段,即Shell的类型。如果该字段中不包含nologin字符串,则匹配成功。

  • {print $0}表示输出当前行的完整信息,即输出/etc/passwd文件中符合匹配条件的行数据。

在执行该命令时,awk会读取/etc/passwd文件中的每一行数据,并使用冒号(:)作为字段分隔符来解析每个字段。然后,对于每一行数据,如果第七个字段中不包含nologin字符串,则输出该行数据的完整信息。最后,将所有符合匹配条件的行数据的完整信息都输出。

该命令的输出结果是/etc/passwd文件中默认Shell不是nologin的用户的完整信息。

awk -F: '($6=="/home/mrj")&&($7=="/bin/bash"){print $1,$NF}'

awk命令是一个文本处理工具,用于从文件中读取文本数据并进行处理。在这个命令中,awk会读取/etc/passwd文件中的每一行数据,并使用冒号(:)作为字段分隔符来解析每个字段。

接着,在awk命令中,使用了一个条件表达式:($6=="/home/mrj")&&($7=="/bin/bash")。这个条件表达式包含两个条件,通过逻辑&&操作符连接。其中,第一个条件是$6=="/home/mrj",表示这个条件成立当且仅当当前行数据的第六个字段(即用户的家目录)等于/home/mrj;第二个条件是$7=="/bin/bash",表示这个条件成立当且仅当当前行数据的第七个字段(即用户的默认Shell)等于/bin/bash。当这两个条件同时成立时,整个条件表达式就会返回True

接着,当条件表达式返回True时,awk命令就会执行另一个语句:{print $1,$NF}。这个语句中,printawk命令中用于输出内容的关键字,后面的内容是要输出的内容。具体来说,$1表示当前行数据的第一个字段,即用户名;$NF表示当前行数据的最后一个字段,即用户所属的组名。这个命令中的逗号表示输出两个字段之间使用空格隔开。因此,当条件表达式返回True时,awk命令就会输出当前行数据的用户名和所属组名。

综合起来,这个awk命令的作用是从/etc/passwd文件中读取用户信息,然后找到家目录为/home/mrj,默认Shell为/bin/bash的用户信息,并输出这些用户的用户名和所属组名。

awk去重

表示aaa出现了4次ccc出现了1次bbb出现了2次

通过索引下标出现过几次来定义他的值

把网址用awk单独切出来

 

 

cat zhuji.sh | awk -F '[ .]+' '{print $2}'
 

这个命令的作用是从zhuji.sh文件中读取数据,然后使用awk命令进行处理。具体来说,这个命令使用了一个-F参数,该参数指定了字段分隔符,用于帮助awk命令解析文件中的每一行数据。

在这个命令中,字段分隔符是[ .]+。这个字段分隔符包含了两个字符类,即空格()和点号(.),并使用+表示这两个字符类可以连续出现多次。因此,这个字段分隔符的含义是:以一个或多个空格或点号作为分隔符来分割每行的数据。

接着,这个命令使用了一个{print $2}语句,该语句表示打印每行数据的第二个字段。因为字段分隔符包含了空格和点号,所以第二个字段就是每行数据中的第一个以空格或点号为分隔符的字符串。

具体来说,zhuji.sh文件中的每一行数据都是一个字符串,包含了一个数字和一个主机名。例如,第一行数据是1 www.kgc.com,第二行数据是2 mail.kgc.com。因为数字和主机名之间使用了空格作为分隔符,所以这个命令会将每行数据分成两个字段,并打印出每行数据的第二个字段,即主机名的部分。在这个例子中,命令的输出结果是:

www
mail
ftp
linux
blog

这个输出结果包含了zhuji.sh文件中的每行数据的主机名部分,即我们想要提取的内容。

 

重点题型

日志分割

awk '{print $1, $7, $9}' /var/log/messages

在这个命令中,我们使用单引号将awk命令的操作包含起来。 $1、$7和$9是awk的内置变量,分别表示每行日志文件中的第1、第7和第9个字段。 通过使用print命令,我们将这些字段分别打印出来,以空格分隔。 最后,我们指定日志文件的路径/var/log/messages,awk会自动对文件中的每行进行处理并输出结果。

只分割前两行内容的第一个和第四个字段

awk 'NR<=2{print $1, $4}' /var/log/messages

这个命令的意思是,在/var/log/messages文件中,输出前两行的第1个和第4个字段。

具体来说,awk命令会对/var/log/messages文件中的每一行进行处理,通过空格作为分隔符,将每行内容划分为若干个字段。NR<=2表示只对前两行数据进行处理,然后将这两行的第1个和第4个字段输出,中间用空格隔开。

这个命令适用于快速查看/var/log/messages文件的某些重要信息,例如文件头信息、系统启动信息、错误日志等。需要注意的是,输出结果是以空格作为分隔符的,因此如果需要使用输出结果进行后续处理,可能需要考虑分隔符的问题。

取小数点几位和取整数

result=$(awk 'BEGIN{printf "%.2f", 2.331*2.542}') #取小数点2位
result=$(awk 'BEGIN{printf "%.F", 2.331*2.542}')  # 不取小数点,只取整数

第一个命令的意思是,使用awk计算2.331乘以2.542的结果,并将结果保留两位小数,最后将计算结果存储在result变量中。

具体来说,awk命令中的BEGIN表示在处理输入数据之前执行,printf "%.2f"表示输出结果为小数形式,且保留两位小数。2.331*2.542awk命令的计算表达式,其结果为5.919942,经过printf函数处理后,保留两位小数并四舍五入,最终结果为5.92。

result=表示将计算结果存储到result变量中,这个变量可以在后续的脚本中使用。

这个命令适用于进行简单的数值计算,并将结果传递给其他脚本或命令进行后续处理。需要注意的是,awk的数值计算支持整型和浮点型,可以进行基本的数学运算,并且具有很高的精度。

第二个命令是,使用awk计算2.331乘以2.542的结果,并将结果取整数部分,最后将计算结果存储在result变量中。

具体来说,awk命令中的BEGIN表示在处理输入数据之前执行,printf "%.F"表示输出结果为整数形式(大写字母"F"表示不输出小数),2.331*2.542awk命令的计算表达式,其结果为5.919942,经过printf函数处理后,只输出整数部分5。

result=表示将计算结果存储到result变量中,这个变量可以在后续的脚本中使用。

这个命令适用于进行简单的数值计算,并将结果传递给其他脚本或命令进行后续处理。需要注意的是,awk的数值计算支持整型和浮点型,可以进行基本的数学运算,并且具有很高的精度。

提取host.txt主机名后再放回host.txt文件 

1 www.kgc.com 

2 mail.kgc.com

 3 ftp.kgc.com 

4 linux.kgc.com

 5 blog.kgc.com

cat file.txt | awk -F '[ .]+' '{print $2}' >> host.txt

这个命令的意思是,将file.txt文件中每一行的第2个字段(以空格或点号作为分隔符)提取出来,并将结果输出到host.txt文件中。

具体来说,cat file.txt命令用于读取file.txt文件中的内容,并将其传递给awk命令进行处理。在awk命令中,-F '[ .]+'选项表示以空格或点号作为分隔符来划分每一行的字段。{print $2}表示输出每一行的第2个字段的值,然后将所有输出结果追加写入到host.txt文件中。

这个命令适用于从日志文件中提取某些特定信息,例如访问日志中的主机名、IP地址等。需要注意的是,如果原始文件中有很多不必要的字段,或者不同行的字段数不一样,可能需要对分隔符和字段顺序进行调整。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值