AWK 是一种处理文本文件的语言,是一个强大的文本分析工具。
usage: awk [-F fs] [-v var=value] [-f progfile | 'prog'] [file ...]
1. 简单用法
awk '{print $1,$4}' log.txt
#运行脚本
awk -f cal.awk log.txt
# 指定分隔符
awk -F "," '{print $1,$2}' log.txt
awk 'BEGIN{FS=","} {print $1,$2}' END {print "done"} 'log.txt
cat /etc/passwd |awk -F ':' 'BEGIN {print "name,shell"} {print $1","$7} END {print "blue,/bin/nosh"}'
awk工作流程:先执行BEGING,然后读取文件,读入有/n换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域,随后开始执行模式所对应的动作action。接着开始读入第二条记录······直到所有的记录都读完,最后执行END操作。
2. 引入自定义变量
awk -v a=abc '{print $1,a}' testfile
3. 筛选列匹配的行
# 第二列匹配th的行
awk '$2 ~ /th/ {print $2,$4}' log.txt
# 反向筛选
awk '$2 !~ /th/ {print $2,$4}' log.txt
awk '$1>2' log.txt
awk '$1==2 {print $1,$3}' log.txt
awk '$1>2 && $2=="Are" {print $1,$2,$3}' log.txt
# 输出包含 "re" 的行
$ awk '/re/' log.txt
# 忽略大小写,匹配this的行
awk 'BEGIN{IGNORECASE=1} /this/' log.txt
4. 指定格式打印输出
awk -F ':'
{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd
5. 条件循环语句
awk -F : '{if($1=="root") print $1,"Admin";else print $1, "Common User"}' /etc/passwd
awk -F : '{i=1;do{print $i;i++}while(i<=3)}' /etc/passwd
awk -F : '{for(i=1;i<=NF;i++) { if (length($i)>=4) {print $i}}}' /etc/passwd
# 综合应用。注意:awk引用变量的方式
for id in `find ./ -name *hg38_multianno.txt`;do add=${id%/*};add=${add#*/}i;awk '{if (NR==1) {print $0, "Tumor_Sample_Barcode"}; if (NR>1) {print $0,"'"$add"'"}}' $id >> hg38_multianno.txt.merg;done
awk内置变量
ARGC 命令行参数个数
ARGV 命令行参数排列
ENVIRON 支持队列中系统环境变量的使用
FILENAME awk浏览的文件名
FNR 浏览文件的记录数
FS 设置输入域分隔符,等价于命令行 -F选项
NF 浏览记录的域的个数
NR 已读的记录数
OFS 输出域分隔符
ORS 输出记录分隔符
RS 控制记录分隔符