Shell 编程之正则表达式与文本处理器

正则表达式
正则表达式又称正规表达式、常规表达式
正则表达式是由普通字符与元字符组成的文字模式
正则表达式一般用于脚本编程与文本编辑器中
元字符总结
^    匹配输入字符串的开始位置。除非在方括号表达式中使用,表示不包含该字符集合。要匹配“^”
字符本身,请使用 “\^”
$   匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 “$” 也匹配 ‘\n’ ‘\r’. 要匹配“$” 字符本身,请使用 “\$”
.   匹配除“\r\n” 之外的任何单个字符
\ 反斜杠,又叫转义字符,去除其后紧跟的元字符或通配符的特殊意义
* 匹配前面的子表达式零次或多次。要匹配“*” 字符,请使用 “\*”
[] 字符集合。匹配所包含的任意一个字符。例如,“[abc]” 可以匹配 “plain” 中的 “a”
[^] 赋值字符集合。匹配未包含的一个任意字符。例如,“[^abc]” 可以匹配 “plain” 中任何一个字母
[n1-n2] 字符范围。匹配指定范围内的任意一个字符。例如,“[a-z]” 可以匹配 “a” “z” 范围内的任一个 小写字母字符。
注意:只有连字符( - )在字符组内部,并且出现在两个字符之间时,才能表示字符的范围;如
果出现在字符组的开头,则只能表示连字符本身
{n} n 是一个非负整数,匹配确定的 n 次。例如, “o{2}” 不能匹配 “Bob” 中的 “o” ,但是能匹配 “food”
中 的“oo”
{n,} n 是一个非负整数,至少匹配 n 次。例如, “o{2,}” 不能匹配 “Bob” 中的 “o” ,但能匹配 “foooood” 中的所有 o “o{1,}” 等价于 “o+” “o{0,}” 则等价于 “o*”
{n,m} m 和 n 均为非负整数,其中 n<=m ,最少匹配 n 次且最多匹配 m
扩展正则表达式
+  作用:重复一个或者一个以上的前一个字符
? 作用:零个或者一个的前一个字符
| 作用:使用或者(or )的方式找出多个字符
() 作用:查找“ 字符串
()+ 作用:辨别多个重复的组
文本处理器
sed 工具
读取: sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓
冲区中(又称模式空间, pattern space )。
执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行
的地址,否则 sed 命令将会在所有的行上依次执行。
显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。
sed 命令常见用法
-e --expression= :表示用指定命令或者脚本来处理输入的文本文件。
  -f --file= :表示用指定的脚本文件来处理输入的文本文件。
-h --help :显示帮助。
  -n --quiet silent :表示仅显示处理后的结果。
  -i :直接编辑文本文件。“操作 用于指定对文件操作的动作行为,也就是 sed 的命令
a :增加,在当前行下面增加一行指定内容。
c :替换,将选定行替换为指定内容。
  d :删除,删除选定的行。
  i :插入,在选定行上面插入一行指定内容。
  p :打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与 “-n” 选项一起使用。
  s :替换,替换指定字符。
  y :字符转换
awk 工具
awk 常见用法
awk 选项 ' 模式或条件 { 编辑指令 }' 文件 1 文件 2 … //过滤并输出文件中符合条件的内容
awk -f 脚本文件 文件 1 文件 2 … //从脚本中调用编辑指令 ,过滤并输出内容
awk 包含几个特殊的内建变量(可直接用)
FS :指定每行文本的字段分隔符,默认为空格或制表位。
NF :当前处理的行的字段个数。
  NR :当前处理的行的行号(序数)。
  $0 :当前处理的行的整行内容。
  $n :当前处理行的第 n 个字段(第 n 列)。
  FILENAME :被处理的文件名。
RS :数据记录分隔,默认为 \n ,即每行为一条记录。
sort 工具
sort 是一个以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排序
-f :忽略大小写;
  -b :忽略每行前面的空格;
  -M :按照月份进行排序;
  -n :按照数字进行排序;
  -r :反向排序;
-u :等同于 uniq ,表示相同的数据仅显示一行;
  -t :指定分隔符,默认使用 [Tab] 键分隔;
 -o < 输出文件 > :将排序后的结果转存至指定文件;
  -k :指定排序区域。
uniq 工具
-c:进行计数;
-d :仅显示重复行;
  -u :仅显示出现一次的行。
tr 工具
-c :取代所有不属于第一字符集的字符;
  -d :删除所有属于第一字符集的字符;
  -s :把连续重复的字符以单独一个字符表示;
  -t :先删除第一字符集较第二字符集多出的字符。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值