《SED 单行脚本快速参考》的 awk 实现

最新推荐文章于 2021-05-13 21:53:04 发布

gnuhpc

最新推荐文章于 2021-05-13 21:53:04 发布

阅读量1.4k

点赞数

分类专栏： Linux开发文章标签：脚本正则表达式 file bash unix shell

Linux开发专栏收录该内容

48 篇文章 0 订阅

订阅专栏

awk '/regexp/{F=1}{if(F)print}'

# 显示部分文本——指定行号范围（从第8至第12行，含8和12行）

sed -n '8,12p'                   # 方法1

sed '8,12!d'                     # 方法2

awk '{if(NR>=8 && NR<12)print}'

# 显示第52行

sed -n '52p'                     # 方法1

sed '52!d'                       # 方法2

sed '52q;d'                      # 方法3, 处理大文件时更有效率

awk '{if(NR==52){print;exit}}'

# 从第3行开始，每7行显示一次

gsed -n '3~7p'                   # 只对GNU sed有效

sed -n '3,${p;n;n;n;n;n;n;}'     # 其他sed

awk '{if(NR==3)F=1}{if(F){i++;if(i%7==1)print}}'

# 显示两个正则表达式之间的文本（包含）

sed -n '/Iowa/,/Montana/p'       # 区分大小写方式

awk '/Iowa/{F=1}{if(F)print}/Montana/{F=0}'

选择性地删除特定行：

# 显示通篇文档，除了两个正则表达式之间的内容

sed '/Iowa/,/Montana/d'

awk '/Iowa/{F=1}{if(!F)print}/Montana/{F=0}'

# 删除文件中相邻的重复行（模拟“uniq”）
# 只保留重复行中的第一行，其他行删除

sed '$!N; /^/(.*/)/n/1$/!P; D'

awk '{if($0!=B)print;B=$0}'

# 删除文件中的重复行，不管有无相邻。注意hold space所能支持的缓存大小，或者使用GNU sed。

sed -n 'G; s//n/&&/; /^/([ -~]*/n/).*/n/1/d; s//n//; h; P'  #bones7456注：我这里此命令并不能正常工作

awk '{if(!($0 in B))print;B[$0]=1}'

# 删除除重复行外的所有行（模拟“uniq -d”）

sed '$!N; s/^/(.*/)/n/1$//1/; t; D'

awk '{if($0==B && $0!=l){print;l=$0}B=$0}'

# 删除文件中开头的10行

sed '1,10d'

awk '{if(NR>10)print}'

# 删除文件中的最后一行

sed '$d'

#awk在过程中并不知道文件一共有几行，所以只能通篇缓存，大文件可能不适合，下面两个也一样

awk '{B[NR]=$0}END{for(i=0;i<=NR-1;i++)print B[i]}'

# 删除文件中的最后两行

sed 'N;$!P;$!D;$d'

awk '{B[NR]=$0}END{for(i=0;i<=NR-2;i++)print B[i]}'

# 删除文件中的最后10行

sed -e :a -e '$d;N;2,10ba' -e 'P;D'   # 方法1

sed -n -e :a -e '1,10!{P;N;D;};N;ba'  # 方法2

awk '{B[NR]=$0}END{for(i=0;i<=NR-10;i++)print B[i]}'

# 删除8的倍数行

gsed '0~8d'                           # 只对GNU sed有效

sed 'n;n;n;n;n;n;n;d;'                # 其他sed

awk '{if(NR%8!=0)print}' |head

# 删除匹配式样的行

sed '/pattern/d'                      # 删除含pattern的行。当然pattern可以换成任何有效的正则表达式

awk '{if(!match($0,/pattern/))print}'

# 删除文件中的所有空行（与“grep ‘.’ ”效果相同）

sed '/^$/d'                           # 方法1

sed '/./!d'                           # 方法2

awk '{if(!match($0,/^$/))print}'

# 只保留多个相邻空行的第一行。并且删除文件顶部和尾部的空行。
# （模拟“cat -s”）

sed '/./,/^$/!d'        #方法1，删除文件顶部的空行，允许尾部保留一空行

sed '/^$/N;//n$/D'      #方法2，允许顶部保留一空行，尾部不留空行

awk '{if(!match($0,/^$/)){print;F=1}else{if(F)print;F=0}}'  #同上面的方法2

# 只保留多个相邻空行的前两行。

sed '/^$/N;//n$/N;//D'

awk '{if(!match($0,/^$/)){print;F=0}else{if(F<2)print;F++}}'

# 删除文件顶部的所有空行

sed '/./,$!d'

awk '{if(F || !match($0,/^$/)){print;F=1}}'

# 删除文件尾部的所有空行

sed -e :a -e '/^/n*$/{$d;N;ba' -e '}'  # 对所有sed有效

sed -e :a -e '/^/n*$/N;//n$/ba'        # 同上，但只对 gsed 3.02.*有效

awk '/^.+$/{for(i=l;i<NR-1;i++)print "";print;l=NR}'

# 删除每个段落的最后一行

sed -n '/^$/{p;h;};/./{x;/./p;}'

#很长，很ugly，应该有更好的办法

awk -vRS= '{B=$0;l=0;f=1;while(match(B,//n/)>0){print substr(B,l,RSTART-l-f);l=RSTART;sub(//n/,"",B);f=0};print ""}'

特殊应用：

# 移除手册页（man page）中的nroff标记。在Unix System V或bash shell下使
# 用’echo’命令时可能需要加上 -e 选项。

sed "s/.`echo ///b`//g"    # 外层的双括号是必须的（Unix环境）

sed 's/.^H//g'             # 在bash或tcsh中, 按 Ctrl-V 再按 Ctrl-H

sed 's/./x08//g'           # sed 1.5，GNU sed，ssed所使用的十六进制的表示方法

awk '{gsub(/./x08/,"",$0);print}'

# 提取新闻组或 e-mail 的邮件头

sed '/^$/q'                # 删除第一行空行后的所有内容

awk '{print}/^$/{exit}'

# 提取新闻组或 e-mail 的正文部分

sed '1,/^$/d'              # 删除第一行空行之前的所有内容

awk '{if(F)print}/^$/{F=1}'

# 从邮件头提取“Subject”（标题栏字段），并移除开头的“Subject:”字样

sed '/^Subject: */!d; s///;q'

awk '/^Subject:.*/{print substr($0,10)}/^$/{exit}'

# 从邮件头获得回复地址

sed '/^Reply-To:/q; /^From:/h; /./d;g;q'

#好像是输出第一个Reply-To:开头的行？From是干啥用的？不清楚规则。。

awk '/^Reply-To:.*/{print;exit}/^$/{exit}'

# 获取邮件地址。在上一个脚本所产生的那一行邮件头的基础上进一步的将非电邮地址的部分剃除。（见上一脚本）

sed 's/ *(.*)//; s/>.*//; s/.*[:<] *//'

#取尖括号里的东西吧？

awk -F'[<>]+' '{print $2}'

# 在每一行开头加上一个尖括号和空格（引用信息）

sed 's/^/> /'

awk '{print "> " $0}'

# 将每一行开头处的尖括号和空格删除（解除引用）

sed 's/^> //'

awk '/^> /{print substr($0,3)}'

# 移除大部分的HTML标签（包括跨行标签）

sed -e :a -e 's/<[^>]*>//g;/</N;//ba'

awk '{gsub(/<[^>]*>/,"",$0);print}'

# 将分成多卷的uuencode文件解码。移除文件头信息，只保留uuencode编码部分。
# 文件必须以特定顺序传给sed。下面第一种版本的脚本可以直接在命令行下输入；
# 第二种版本则可以放入一个带执行权限的shell脚本中。（由Rahul Dhesi的一
# 个脚本修改而来。）

sed '/^end/,/^begin/d' file1 file2 ... fileX | uudecode   # vers. 1

sed '/^end/,/^begin/d' "$@" | uudecode                    # vers. 2

#我不想装个uudecode验证，大致写个吧

awk '/^end/{F=0}{if(F)print}/^begin/{F=1}' file1 file2 ... fileX

# 将文件中的段落以字母顺序排序。段落间以（一行或多行）空行分隔。GNU sed使用
# 字元“/v”来表示垂直制表符，这里用它来作为换行符的占位符——当然你也可以
# 用其他未在文件中使用的字符来代替它。

sed '/./{H;d;};x;s//n/={NL}=/g' file | sort | sed '1s/={NL}=//;s/={NL}=//n/g'

gsed '/./{H;d};x;y//n//v/' file | sort | sed '1s//v//;y//v//n/'

awk -vRS= '{gsub(//n/,"/v",$0);print}' ll.txt | sort | awk '{gsub(//v/,"/n",$0);print;print ""}'

# 分别压缩每个.TXT文件，压缩后删除原来的文件并将压缩后的.ZIP文件
# 命名为与原来相同的名字（只是扩展名不同）。（DOS环境：“dir /b”
# 显示不带路径的文件名）。

echo @echo off >zipup.bat

dir /b *.txt | sed "s/^/(.*/)/.TXT/pkzip -mo /1 /1.TXT/" >>zipup.bat

DOS 环境再次略过，而且我觉得这里用 bash 的参数 ${i%.TXT}.zip 替换更帅。

下面的一些 SED 说明略过，需要的朋友自行查看原文。

{ Source . Thanks bones7456. }

gnuhpc

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《SED 单行脚本快速参考》的 awk 实现

awk /regexp/{F=1}{if(F)print}# 显示部分文本——指定行号范围（从第8至第12行，含8和12行）sed -n 8,12p # 方法1sed 8,12!d # 方法2awk {if(NR>=8 && NR# 显示第52行sed -n 52p
复制链接

扫一扫

专栏目录