[复习] grep、sed、awk练习题(二)

awk 中使用外部shell变量

如: A=44echo "ABCD" | awk -v GET_A=$A ’{print GET_A}’ 说明:-v选项用于定义参数,这里表示将变量A的值赋予GET_A。 有多少个变量需要赋值,就需要多少个-v选项。与之等价的:应用于脚本中:

#! /bin/bash
# 切割文件第一部分去重排序写入id.txt文件中
sort -n test0709.txt |awk -F ':' '{print $1}'|uniq >id.txt
# 循环遍历id.txt将值赋予变量id
for id in `cat id.txt`; do
        echo "[$id]"
		# 此处id2变量就是外部被赋值变量
        awk -v id2=$id -F ':' '$1==id2 {print $2}' test0709.txt
		# 另外的方式为: awk -F ':' '$1=="'id'" {print $2}' test0709.txt
done
附件:
cat test0709.txt
1111111:13443253456
2222222:13211222122
1111111:13643543544
3333333:12341243123
2222222:12123123123
运行脚本后结果为:
[1111111]
13443253456
13643543544
[2222222]
13211222122
12123123123
[3333333]
12341243123

awk 合并一个文件

我有这样的需求,需要把两个文件中,第一列相同的行合并到同一行中。举个例子,有两个文件,内容如下

cat 1.txt

1 aa 2 bb 3 ee 4 ss cat 2.txt

1 ab 2 cd 3 ad 4 bd 5 de 要求合并后的结果为:

1 ab aa 2 cd bb 3 ad ee 4 bd ss 5 de

实现的命令如下:

awk 'NR==FNR{a[$1]=$2}NR>FNR{print $0,a[$1]}'  1.txt  2.txt

解释:

数组a其实就相当于一个map

NR是所有的行数,FNR是正在读取的行数,先读1.txt再读2.txt

当读取1.txt时

第一行时:NR=0,FNR=0,

第二行时:NR=1,FNR=1,

……

最后一行时,NR=3,FNR=3,

然后开始读2.txt

读2.txt第一行时,NR=4,FNR=0,此时NR>FNR,所以开始打印第一行1 ab aa

第二行时,NR=5,FNR=2,同样满足NR>FNR,所以开始打印第二行2 cd bb

……

2.txt最后一行时,NR=7,FNR=4,打印最后一行5 de

从上面我们发现几个特点:

1、第二个文件有几行,就打印几行,因为只有读到第二个文件时,才满足NR>FNR,才能打印

2、NR、FNR都是从零开始计数,NR不清零,FNR读完一个文件后清零

3、行号后面列的顺序是在print中定义的,也可以定义先打1.txt的$2列,后打2.txt的$2列,改为{print a[$1],$0}即可。

附带说明(可以不看):

NR是number of records的缩写,记录的数量,在awk中行称为记录

FNR是file‘s number records的缩写,是当前文件的记录数,就是当前文件的行号

把一个文件多行连接成一行

实现命令如下:

a=`cat file`;echo $a 
awk '{printf("%s ",$0)}' file   // %s 后记得要有一空格,否则出来就是完全连在一起的,中间连空格都没有
cat file |xargs

应用举例

一个文件每行都有一个数字,现在需要把每行的数字用“+”连接起来。

cat a.txt

[root@yolks1 restudy]# cat a.txt 
96
1093
1855
1253
1364
1332
2308
2589
2531
1239
2164
2826
2787
2145
2617
4311
1810
2115
1235

实现命令如下:

[root@yolks1 restudy]# awk '{printf ("%s+",$0)}'  a.txt; echo ""
96+1093+1855+1253+1364+1332+2308+2589+2531+1239+2164+2826+2787+2145+2617+4311+1810+2115+1235+
这里注意,最后一个是带“+”的。echo ""  的作用是换行。

使用paste命令也可以实现的,加个选项-s就行了,而且paste命令自带空格属性将一行的内容分开,要是指定分割符的话,加-d即可

[root@yolks1 restudy]# paste -s -d '#' a.txt 
96#1093#1855#1253#1364#1332#2308#2589#2531#1239#2164#2826#2787#2145#2617#4311#1810#2115#1235

awk中gsub函数的使用

awk 'gsub(/www/,"abc")' /etc/passwd  // passwd文件中把所有www替换为abc
awk -F ':' 'gsub(/www/,"abc",$1) {print $0}' /etc/passwd  // 替换$1中的www为abc
awk 'sub(/www/,"abc")' /etc/passwd  // passwd文件中把第一次出现的www替换为abc

awk 截取指定多个域为一行

用awk指定分隔符把文本分为若干段。如何把相同段的内容弄到一行? 以/etc/passwd为例,该文件以":"作为分隔符,分为了7段。

针对这次的“域” 是指 awk中 $0 ~$N 是按照 -F 分割后的各个段(楼主说的“域”) 把每行的,从$1开始 依次到 $N 输入到一个新文件

for i in `seq 1 7`
do
    awk -F ':' -v a=$i '{printf $a " "}' /etc/passwd
    echo 
done

grep 或 egrep 或awk 过滤两个或多个关键词

grep -E '123|abc' filename  // 找出文件(filename)中包含123或者包含abc的行
egrep '123|abc' filename    //用egrep同样可以实现
awk '/123|abc/'  filename // awk 的实现方式

用awk编写生成以下结构文件的程序

用awk编写生成以下结构文件的程序。( 最后列使用现在的时间,时间格式为YYYYMMDDHHMISS) 各列的值应如下所示,每增加一行便加1,共500万行。

1,1,0000000001,0000000001,0000000001,0000000001,0000000001,0000000001,2005100110101 2,2,0000000002,0000000002,0000000002,0000000002,0000000002,0000000002,2005100110101

awk 'BEGIN{for(i=1;i<=10;i++)printf("%d,%d,%010d,%010d,%010d,%010d,%010d,%010d,%d\n",i,i,i,i,i,i,i,i,strftime("%Y%m%d%H%M%S)}'

awk用print打印单引号

awk 'BEGIN{print "a'"'"'s"}'  //不用脱义,就多写几个单引号、双引号
awk 'BEGIN{print "a'\''s"}'  //用脱义,脱义的是单引号
awk 'BEGIN{print "a\"s"}'  //用脱义,脱义的是双引号

拓展awk学习

awk学习链接

转载于:https://my.oschina.net/yolks/blog/1842664

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值