shell脚本系列-正则表达式介绍

转载 2013年12月04日 19:11:02

原文地址 http://blog.csdn.net/lile269/article/details/6387225 

   正则表达式介绍
随着对UNIX和LINUX熟悉程度的不断加深,需要经常接触到正则表达式这个领域。使用shell时,从一个文件中抽取多于一个字符串将会很麻烦。例如,在一个文本中抽取一个词,它的头两个字符是大写的,后面紧跟四个数字。如果不使用某种正则表达式,在s h e l l中将不能实现这个操作。
本章内容包括:
• 匹配行首与行尾。
• 匹配数据集。
• 只匹配字母和数字。
• 匹配一定范围内的字符串集。
当从一个文件或命令输出中抽取或过滤文本时,可以使用正则表达式(RE),正则表达式是一些特殊或不很特殊的字符串模式的集合。

 

本章设计的基本元字符使用在g r e p和s e d命令中,同时结合{ / / }(以字符出现情况进行匹配的元字符)使用在awk语言中。
 基本元字符集及其含义

^                            匹配行首
$                            匹配行尾
*                            一个单字符后紧跟*,匹配0个或多个此单字符
[ ]                          匹配[ ]内字符。可以是一个单字符,也可以是字符序列。可以使用-
                                 表示[ ]内字符序列范围,如用[ 1 - 5 ]代替[ 1 2 3 4 5 ]
/                                用来屏蔽一个元字符的特殊含义。因为有时在s h e l l中一些元字符有
                                 特殊含义。/可以使其失去应有意义
.                            匹配任意单字符
pattern/{n/}                   用来匹配前面pattern出现次数。n为次数
pattern/{n/}m                  含义同上,但次数最少为n
pattern/{n,m/}                含义同上,但pattern出现次数在n与m之间
            


1.使用/屏蔽一个特殊字符的含义
有时需要查找一些字符或字符串,而它们包含了系统指定为特殊字符的一个字符。什么。是特殊字符?一般意义上讲,下列字符可以认为是特殊字符:

$ . ' " * [ ] ^ | 0 | + ?

假定要匹配包含字符“ .”的各行而“,”代表匹配任意单字符的特殊字符,因此需要屏蔽其含义。操作如下:
/.
上述模式不认为反斜杠后面的字符是特殊字符,而是一个普通字符,即句点。假定要匹配包含^的各行,将反斜杠放在它前面就可以屏蔽其特殊含义。如下:
/^
如果要在正则表达式中匹配以*.pas结尾的所有文件,可做如下操作:
/*/.pas
即可屏蔽字符*的特定含义。

 

2.使用[]匹配一个范围或集合

使用“ -”表示一个字符串范围,表明字符串范围从“ -”左边字符开始,到“ -”右边字符结束。如果熟知一个字符串匹配操作,应经常使用[ ]模式。假定要匹配任意一个数字,可以使用:
[ 0 1 2 3 4 5 6 7 8 9 ]
然而,通过使用“-”符号可以简化操作:
[ 0 - 9 ]
或任意小写字母
[ a - z ]
要匹配任意字母,则使用:
[ A - Z a - z ]
表明从A - Z、a - z的字母范围。如要匹配任意字母或数字,模式如下:
[ A - Z a - z 0 - 9 ]
在字符序列结合使用中,可以用[ ]指出字符范围。假定要匹配一单词,以s开头,中间有
一任意字母,以t结尾,那么操作如下:
s[a-z A-Z]t
上述过程返回大写或小写字母混合的单词,如仅匹配小写字母,可使用:
s [ a - z ] t
如要匹配C o m p u t e r或c o m p u t e r两个单词,可做如下操作:
[ C c ] o m p u t e r
为抽取诸如S c o u t、s h o u t、b o u g h t等单词,使用下列表达式:
[ou] .*t
匹配以字母o或u开头,后跟任意一个字符任意次,并以t结尾的任意字母。
也许要匹配所有包含s y s t e m后跟句点的所有单词,这里S可大写或小写。使用如下操作:
[ S,s ] y s t e m / .
[ ]在指定模式匹配的范围或限制方面很有用。结合使用*与[ ]更是有益,例如[ A - Z a - Z ] *将匹配所有单词。
[ A - Z a - z ] *
注意^符号的使用,当直接用在第一个括号里,意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符,而
[ ^ 0 - 9 ]
匹配任一非数字型字符。

 

3.使用/{/}匹配模式结果出现的次数

使用*可匹配所有匹配结果任意次,但如果只要指定次数,就应使用/ { / },此模式有三种形式,即:
pattern/{n/} 匹配模式出现n次。
pattern/{n,/} 匹配模式出现最少n次。
pattern/{n,m} 匹配模式出现n到m次之间,n , m为0 - 2 5 5中任意整数。

请看第一个例子,匹配字母A出现两次,并以B结尾,操作如下:
A / { 2 / } B
匹配值为A A B
匹配A至少4次,使用:
A / { 4 , / } B
可以得结果A A A A B或A A A A A A A B,但不能为A A A B。
如给出出现次数范围,例如A出现2次到4次之间:
A / { 2 , 4 / } B
则结果为AAB、AAAB、AAAAB,而不是AB或AAAAAB等。

 

经常使用的正则表达式举例

^                                      行首
$                                      行尾
^[the]                                     以the开头行
[Ss]igna[lL]                           匹配单词signal、signaL、Signal、SignaL
[Ss]igna[lL]/.                         同上,但加一句点
[mayMAY]                               包含may大写或小写字母的行
^USER$                                 只包含USER的行
[tty]$                                 以tty结尾的行
/.                                     带句点的行
^d..x..x..x                            对用户、用户组及其他用户组成员有可执行权限的目录
^[^l]                                  排除关联目录的目录列表
[.*0]                                  0之前或之后加任意字符
[000*]                                 000或更多个
[iI]                                   大写或小写I
[iI][nN]                               大写或小写i或n
[^$]                                   空行
[^.*$]                                 匹配行中任意字符串
^......$                               包括6个字符的行
[a-zA-Z]                               任意单字符
[a-z][a-z]*                            至少一个小写字母
[^0-9/$]                               非数字或美元标识
[^0-0A-Za-z]                           非数字或字母
[123]                                  1到3中一个数字
[Dd]evice                              单词device或Device
De..ce                                 前两个字母为De,后跟两个任意字符,最后为ce
/^q                                    以^q开始行
^.$                                    仅有一个字符的行
^/.[0-9][0-9]                          以一个句点和两个数字开始的行
'"Device"'                             单词device
De[Vv]ice/.                            单词Device或device
[0-9]/{2/}-[0-9]/{2/}-[0-9]/{4/}       日期格式dd-mm-yyyy
[0-9]/{3/}/.[0-9]/{3/}/.[0-9]/{3/}/.[0-9]/{3/} IP地址格式nnn.nnn.nnn.nnn
[^.*$]                                 对匹配任意行

 在shell编程中,一段好的脚本与完美的脚本间的差别之一,就是要熟知正则表达式并学会使用它们。相比较起来,用一个命令抽取一段文本比用三四个命令得出同样的结果要节省许多时间。

shell脚本系列-正则表达式介绍

                                                                      正则表达式介绍随着对U N I X和L I N U X熟悉程...
  • lile269
  • lile269
  • 2011年05月03日 14:58
  • 8434

Linux shell脚本之 Sed 简介 正则表达式

sed是一款轻量级流编辑器,是stream editor的简写。由于sed是以行为单位进行编辑文件 , 因此也称为行编辑器。它无需直接编辑资料,能够将编辑工作自动化。sed工作方式: 由标准输入读取编...
  • doiido
  • doiido
  • 2015年02月28日 16:32
  • 2380

Shell脚本学习-正则表达式&&grep

Shell脚本学习-正则表达式&&grep 一、基本概念 正则表达式:规定一些特殊语法表示字符类、数量限定符和位置限定符,然后用这些特殊语法和普通字符一起表示一个模式。 正则表达式的三要素: (1)字...
  • step_ma
  • step_ma
  • 2017年07月16日 20:57
  • 175

Shell脚本学习指南(三)——正则表达式

正则表达式Shell脚本学习指南 概念 Regular Expression 使用表达式在字符串中寻找匹配的内容 BRE:Basic Regular Expression 基本正则表达式 ERE:E...

shell脚本学习笔记 (正则表达式)

shell脚本学习笔记(正则表达式)

Linux--shell脚本之正则表达式

一、正则表达式的概念及特点:   正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻...

shell脚本regex正则表达式

shell脚本regex正则表达式 去论坛讨论 来源: 作者: 发布时间:2010-03-22 .任意字符 ^行首匹配 $行尾匹配 ^$表示空行,不含字符的行 ^ $匹配只有单...
  • wzb56
  • wzb56
  • 2012年09月26日 17:06
  • 629

shell脚本学习:快速理解正则表达式之grep篇

shell脚本是Linux的核心之一,而正则表达式是shell脚本的核心之一,理解正则表达式可以快速匹配需要查抄的文本,对以后的shell脚本编程打下一个坚实的基础。    接触正则表达式一般从gre...
  • deansrk
  • deansrk
  • 2011年07月23日 23:04
  • 11765

shell脚本的正则表达式

一、概念: 正则表达式是通过一些特殊字符的排序,用以删除、查找、替换一行或者多行文字字符串的程序。二、特殊字符: 1、字符类 注意:任意字符“.”与重复字符“*” 1).(小数点):代表一定有...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:shell脚本系列-正则表达式介绍
举报原因:
原因补充:

(最多只允许输入30个字)