Linux文本处理三剑客之awk

一、awk介绍


  • AWK是一种优良的文本处理工具。它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母)的最大功能取决于一个人所拥有的知识。AWK 提供了极其强大的功能:可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上 AWK 的确拥有自己的语言:AWK 程序设计语言, 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

  • 最简单地说, AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 shell 编程语言,尽管 AWK 具有完全属于其本身的语法。它的设计思想来源于 SNOBOL4 、sed 、Marc Rochkind设计的有效性语言、语言工具 yacc 和 lex ,当然还从 C 语言中获取了一些优秀的思想。在最初创造 AWK 时,其目的是用于文本处理,并且这种语言的基础是,只要在输入数据中有模式匹配,就执行一系列指令。该实用工具扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行

二、awk正则表达式


1、命令讲解

 awk '{print NR,NF,FILENAME}' file	              ###统计行列并在每一行,NR:行号 NF:列 FILENAME:文件名
 awk 'BEGIN{print "name"}' file		              ###初始化代码块(先处理,在处理其他),只能出现一次
 awk 'END{print dream}' file	                  ###结束代码块(处理完结果后在处理),只能出现一次
 awk -F ":" '/\<bash$/{print $1}' file            ##找出含有bash关键字的行并以分号为分隔符,打印出第1列,F:指定分隔符
 awk -F "[: ]+" 'print $1' file                   ###以分号和空格为分隔符,打印出第1列     
 awk 'BEGIN{a=1;print a+1}' file                  ###先给a赋值在进行加法
 awk '/bash\>/{a++}END{print a}' file             ###找出可登陆的用户,并统计出个数
 awk -F ":" '/^root/{print}' file                 ###找出以root开头的并打印出来
 awk -F ":" '/^a|nologin$/{print $1,$7}' file     ###找出以a开头的或者nologin结尾的,打印出第1,7列
 awk -F ":" '$6~/bin$/{print $1,$7}' file         ###以冒号为分隔符,找出第6列为bin结束的行,打印出其第1,7列
 awk -F ":" '$6!~/bin$/{print $1,$7}' file        ###以冒号为分隔符,找出第6列不是bin结束的行,打印出其第1,7列

 awk 'NR==2,NR==5{print}' file                    ###显示出2,5行
 awk '/a/,/b/{print}' file                        ###匹配出有a字符的行到有b字符的行,并打印出来

2、显示当前系统可登陆用户的name和id

 awk -F ":" 'BEGIN{print "name id"}/\<bash$/{print $1" "$3}' /etc/passwd

3、统计行数可登陆行数

 awk 'BEGIN{n=0}/\<bash$/{n++}END{print n}' /etc/passwd

4、能够登陆且家目录不在home下的用户

 awk -F ":" '/\<bash$/&&$6!~/^\/home/{print $1}' /etc/passwd

5、显示文本中3-5行的内容

 awk -F ":" 'NR>=3&&NR<=5{print}' /etc/passwd

6、显示文本中6和8的内容

 awk -F ":" 'NR==6||NR==8{print}' /etc/passwd

7、抓取ip地址

 ifconfig eth0 |awk 'NR==2{print $2}'

8、求和1+2…+100:

 seq 100 >dream
 awk '$1<=100;a++;sum=sum+a;{print sum}' dream|tail -1
 awk '$1<=100{a++;sum+=a}END{print sum}' dream
 awk '{sum+=$1}END{print sum}' dream

9、shell脚本中传入变量:

(1)生成测试文件
[root@dream ~]# cat test.txt
a,1
b,2
c,3
(2)脚本:
[root@dream ~]# cat test.sh 
#!/bin/bash
for num in `seq 3`
do
    Row1=`awk -F "," "NR==$num{print "'$1'"}" $1`
    Row2=`awk -F "," "NR==$num{print "'$2'"}" $1`
    echo "$Row1 value is $Row2"
done
(3)结果:
[root@dream ~]# sh test.sh test.txt
a value is 1
b value is 2
c value is 3

三、awk数组


数组是一个包含一系列元素的表(和C有些类似):
其格式为:
array[1]=“dream”
array[2]=“dream_ya”
array为数组名,1和2可以理解为角标,代表着数组的第几个,引号中为对应的内容

1、定义数组并打印

(1)打印出数组的内容
 [root@dream mnt]# awk 'BEGIN{array[1]="dream";array[2]="dream_ya";print array[1]}'
 dream
(2)打印出数组角标
 [root@dream mnt]# awk 'BEGIN{array[1]="dream";array[2]="dream_ya";for (key in array) print key}'
 1
 2

2、统计IP存在的个数并按个数(从大到小)排列:

cat >>dream<<EOF
172.25.254.1
172.25.254.123
172.25.24.11
172.25.254.125
192.25.254.12
172.25.25.12
172.25.254.1
172.25.254.125
192.25.254.12
172.25.254.123
172.25.254.125
192.25.254.12
172.25.254.1
192.25.25.25
172.25.254.123
192.25.254.12
172.25.25.25
172.25.24.11
172.25.254.125
172.25.254.123
EOF
(1)正常解法:
 [root@dream mnt]# sort dream |uniq -c|sort -nr                ###sort以第一位进行排列
       4 192.25.254.12
       4 172.25.254.125
       4 172.25.254.123
       3 172.25.254.1
       2 172.25.24.11
       1 192.25.25.25
       1 172.25.25.25
       1 172.25.25.12
(2)awk数组:
 awk '{array[$1]++} END {for(key in array) print array[key],key}' dream |sort -nr
(3)原理:

$1表示dream文件中的第一列即为IP本身,由于IP为角标的话,对于数组来说这个数组并未定义,但是由于后面的++让这个数组进行了+1且默认值为0,所以每个IP形成的数组都是未定义的,遇到相同的IP时便会自动加1达到统计IP个数的效果。
array[key]:为个数===>>相当于前面引号里面的内容
key:为IP(角标)

3、统计字母后面数字的和,并先显示字母在显示和(倒序)

 cat >>test<<EOF
 a/3
 b/4
 e/5
 c/4
 a/5
 c/2
 d/3
 b/3
 f/9
 EOF
 [root@dream mnt]# awk -F "/" '{a[$1]+=$2}END{for (n in a){print n,a[n]}}' test|sort -k 2 -nr
 f 9
 a 8
 b 7
 c 6
 e 5
 d 3
4、统计/etc/fstab下字符串出现的次数
 awk '{i=1;while(i<=NF){array[$i]++;i++}}END{for (key in array){print key,array[key]}}' /etc/fstab
原理:

每行处理完时,i小于等于NF(列数)为真,就会一直运行大括号里面的内容,当处理到最后一列时便会为假重新给i赋值,并且进入下一行,从而达到了统计字符串的次数

5、从字符串DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea中找出所有数字

 echo "DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea" | awk 'gsub(/[^[:digit:]]/,"",$0)'
 echo "DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea"|sed 's/[^0-9]//g'
原理:

[^[:digit:]]:除了数字的字符,gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容,模式匹配用的是扩展正则表达式

6、计算100以内所有能被3整除的正整数的和

seq 100 |awk '{if ($1%3==0) sum+=$1}END{print sum}'
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wielun

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值