文本处理三剑客_awk

awk [参数] [处理内容] [操作对象]


awk包含几个特殊的内建变量:

  • NF 当前处理的行的字段个数(当前处理的行有多少列)
  • NR 当前处理的行的行号
  • FNR 读取文件的行号,从1开始,新的文件重新从1开始计数
  • $0 当前处理的行的整行内容(就是:表示一行的内容)
  • $n 当前处理行的第n个字段(就是:第n列) # 注意:$0已被占用,$1代表第1列,而非第2列
  • FILENAME 被处理的文件名
  • FS 指定每行的字段分隔符,默认为空格或制表位(相当于选项 -F )
  • OFS 输出字段的分隔符,默认是空格
  • RS 行分割符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条行记录,而awk一次仅读取一条记录,预设值是"\n"
  • ORS 输出行之间的分割符,默认是换行符
  • ~ 表示包含
  • !~ 表示不包含
  • ^ 表示开头 ^name 表示以name开头
  • $ 表示结尾 age$ 表示以age结尾

awk工作原理:

  • 逐行读取文本:当读到第一行时,匹配条件,然后执行指定动作,接着读取第二行数据处理。
  • awk隐含循环,条件匹配多少次,动作就会执行多少次。
  • 将分割所得的各个字段,保存到内建变量中。
  • 当没有指定分隔符时,默认以空格或tab键为分割符进行分割。将分割所得的各个字段,保存到内建变量中,并按模式或或条件执行编辑命令。

逻辑操作符:
&&:与
||:或
!:非
+、-、*、/:加、减、乘、除
%、^:取余和乘方


分隔符定义: root:x:0:0:root:/root:/bin/bash 如果以:作为分隔符,将被分割为root, x, 0, 0, root, /root, /bin/bash七部分。

awk -F ".fasta" '{print $1 "_"}' file.txt -F指定分隔符;打印第1列内容,并在后面加上"_"
awk命令中的单引号'{print $1 "_"}'将被解释为一个整体
{print $1 $2} 两列连在一起
{print $1,$2}{print $1" "$2} 两列之间有空格
{print $1"\t"$2} 两列之间有制表符
-F[:/] 指定多个分隔符


举例:

root:x:0:0:root:/root:/bin/bash 
bin:x:1:1:bin:/bin:/sbin/nologin 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
adm:x:3:4:adm:/var/adm:/sbin/nologin 
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 
sync:x:5:0:sync:/sbin:/bin/sync 
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown 
halt:x:7:0:halt:/sbin:/sbin/halt 
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin 
operator:x:11:@:operator:/root:/shin/nologin

awk -F: '/root/{print $0}' file.txt 分隔符是:,搜索包含root的行,并输出整行内容
awk '{print NR}' file.txt 打印每一行的行号,行号是从1开始,不是0
awk -F: '{print NF}' file.txt 打印每一行的列数
awk '{print NR,$0}' file.txt 打印行号和每一行的内容
awk 'NR==2' file.txtawk 'NR==2{print}' file.txt 打印第二行,print可省略
awk -F: 'NR==2{print $1}' file.txt 打印第二行的第一列
awk -F: '{print $NF}' file.txt 每一行打印最后一列
awk -F: 'NR==2{print $NF}' file.txt 打印第二行的最后一列
awk 'END{print NR}' file.txt 打印最后一行的行号(即显示总行数)
awk -F[:/] '{print "第" NR "行有" NF "列"}' file.txt
awk '{print FNR,$0}' file1.txt file2.txt 两个文件打印行号,分别从1开始
awk -F: '$1~/root/{print $0}' file.txt 第1列字段包含root的行,打印出来
awk -F: '$7!~/root$/{print $1,$7}' file.txt 第7列字段不包含root尾巴的行,打印第1列和第7列
awk '/^root/{print $0}' file.txt 以root开头的行打印出来


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值