oracle的正则表达式(regular expression)简单介绍



正则表达式只是搜索,替换,格式化等功能,格式化一般用后向引用,没有计算length和concatenate(连接串联)的。

  


答案:CDE


要想详细了Oracle正则表达式,具体看附件。

Oracle Database 10g中的正规表达式特性是一个用于处理文本数据的强大工具

Oracle Database 10g的一个新特性大大提高了您搜索和处理字符数据的能力。这个特性就是正规表达式,是一种用来描述文本模式的表示方法。很久以来它已在许多编程语言和大量 UNIX 实用工具中出现过了。

Oracle 的正规表达式的实施是以各种 SQL函数和一个WHERE子句操作符的形式出现的。如果您不熟悉正规表达式,那么这篇文章可以让您了解一下这种新的极其强大然而表面上有点神秘的功能。已经对正规表达式很熟悉的读者可以了解如何在 Oracle SQL语言的环境中应用这种功能。

什么是正规表达式?

正规表达式由一个或多个字符型文字和/元字符组成。在最简单的格式下,正规表达式仅由字符文字组成,如正规表达式cat。它被读作字母c,接着是字母at,这种模式匹配catlocationcatalog之类的字符串。元字符提供算法来确定 Oracle 如何处理组成一个正规表达式的字符。当您了解了各种元字符的含义时,您将体会到正规表达式用于查找和替换特定的文本数据是非常强大的。

验证数据、识别重复关键字的出现、检测不必要的空格,或分析字符串只是正规表达式的许多应用中的一部分。您可以用它们来验证电话号码、邮政编码、电子邮件地址、社会安全号码、IP地址、文件名和路径名等的格式。此外,您可以查找如 HTML标记、数字、日期之类的模式,或任意文本数据中符合任意模式的任何事物,并用其它的模式来替换它们。

Oracle Database 10g使用正规表达式

您可以使用最新引进的 Oracle SQLREGEXP_LIKE操作符和REGEXP_INSTRREGEXP_SUBSTR以及REGEXP_REPLACE函数来发挥正规表达式的作用。您将体会到这个新的功能如何对LIKE操作符和INSTRSUBSTRREPLACE函数进行了补充。实际上,它们类似于已有的操作符,但现在增加了强大的模式匹配功能。被搜索的数据可以是简单的字符串或是存储在数据库字符列中的大量文本。正规表达式让您能够以一种您以前从未想过的方式来搜索、替换和验证数据,并提供高度的灵活性。

正规表达式的基本例子

在使用这个新功能之前,您需要了解一些元字符的含义。句号 (.)匹配一个正规表达式中的任意字符(除了换行符)。例如,正规表达式a.b匹配的字符串中首先包含字母a接着是其它任意单个字符(除了换行符),再接着是字母b。字符串axbxaybxabba都与之匹配,因为在字符串中隐藏了这种模式。如果您想要精确地匹配以a开头和以b结尾的一条三个字母的字符串,则您必须对正规表达式进行定位。脱字符号 (^) 元字符指示一行的开始,而美元符号 ($)指示一行的结尾(参见表 1)。因此,正规表达式^a.b$匹配字符串aababbaxb。将这种方式与LIKE 2ù×÷·?提供的类似的模式匹配a_b相比较,其中 (_)是单字符通配符。

默认情况下,一个正规表达式中的一个单独的字符或字符列表只匹配一次。为了指示在一个正规表达式中多次出现的一个字符,您可以使用一个量词,它也被称为重复操作符。.如果您想要得到从字母a开始并以字母b结束的匹配模式,则您的正规表达式看起来像这样:^a.*b$*元字符重复前面的元字符 (.) 指示的匹配零次、一次或更多次。LIKE操作符的等价的模式是a%b,其中用百分号 (%)来指示任意字符出现零次、一次或多次。

表 2给出了重复操作符的完整列表。注意它包含了特殊的重复选项,它们实现了比现有的LIKE通配符更大的灵活性。如果您用圆括号括住一个表达式,这将有效地创建一个可以重复一定次数的子表达式。例如,正规表达式b(an)*a匹配babanabananayourbananasplit等。

Oracle 的正规表达式实施支持 POSIX(可移植操作系统接口)字符类,参见表 3中列出的内容。这意味着您要查找的字符类型可以非常特别。假设您要编写一条仅查找非字母字符的LIKE条件作为结果的WHERE子句可能不经意就会变得非常复杂。

POSIX 字符类必须包含在一个由方括号 ([])指示的字符列表中。例如,正规表达式[[:lower:]]匹配一个小写字母字符,而[[:lower:]]{5}匹配五个连续的小写字母字符。

POSIX字符类之外,您可以将单独的字符放在一个字符列表中。例如,正规表达式^ab[cd]ef$匹配字符串abcefabdef。必须选择cd

除脱字符 (^)和连字符 (-)之外,字符列表中的大多数元字符被认为是文字。正规表达式看起来很复杂,这是因为一些元字符具有随上下文环境而定的多重含义。^就是这样一种元字符。如果您用它作为一个字符列表的第一个字符,它代表一个字符列表的非。因此,[^[:digit:]]查找包含了任意非数字字符的模式,而^[[:digit:]]查找以数字开始的匹配模式。连字符 (-) 指示一个范围,正规表达式[a-m]匹配字母a到字母m之间的任意字母。但如果它是一个字符行中的第一个字符(如在[-afg]中),则它就代表连字符。

之前的一个例子介绍了使用圆括号来创建一个子表达式;它们允许您通过输入更替元字符来输入可更替的选项,这些元字符由竖线 (|)分开。

例如,正规表达式t(a|e|i)n允许字母tn之间的三种可能的字符更替。匹配模式包括如tantentinPakistan之类的字,但不包括teenmountaintune。作为另一种选择,正规表达式t(a|e|i)n也可以表示为一个字符列表t[aei]n表 4汇总了这些元字符。虽然存在更多的元字符,但这个简明的述足够用来理解这篇文章使用的正规表达式。

REGEXP_LIKE操作符

REGEXP_LIKE操作符向您介绍在 Oracle数据库中使用时的正规表达式功能。表 5列出了REGEXP_LIKE的语法。

下面的 SQL查询的WHERE子句显示了REGEXP_LIKE操作符,它在 ZIP列中搜索满足正规表达式[^[:digit:]]的模式。它将检索 ZIPCODE表中的那些 ZIP 列值包含了任意非数字字符的行。

SELECT zip
FROM zipcode
WHERE REGEXP_LIKE(zip, '[^[:digit:]]')
ZIP
-----
ab123
123xy
007ab
abcxy

这个正规表达式的例子仅由元字符组成,更具体来讲是被冒号和方括号分隔的 POSIX字符类digit。第二组方括号(如[^[:digit:]]中所示)包括了一个字符类列表。如前文所述,需要这样做是因为您只可以将 POSIX 字符类用于构建一个字符列表。

REGEXP_INSTR函数

这个函数返回一个模式的起始位置,因此它的功能非常类似于INSTR函数。新的REGEXP_INSTR函数的语法在表 6中给出。这两个函数之间的主要区别是,REGEXP_INSTR让您指定一种模式,而不是一个特定的搜索字符串;因而它提供了更多的功能。接下来的示例使用REGEXP_INSTR来返回字符串Joe Smith, 10045 Berry Lane, San Joseph, CA 91234中的五位邮政编码模式的起始位置。如果正规表达式被写为[[:digit:]]{5},则您将得到门牌号的起始位置而不是邮政编码的,因为10045是第一次出现五个连续数字。因此,您必须将表达式定位到该行的末尾,正如$元字符所示,该函数将显示邮政编码的起始位置,而不管门牌号的数字个数。

SELECTREGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234',
'[[:digit:]]{5}$')
AS rx_instr
FROM dual
RX_INSTR
----------
45

编写更复杂的模式

让我们在前一个例子的邮政编码模式上展开,以便包含一个可选的四位数字模式。您的模式现在可能看起来像这样:[[:digit:]]{5}(-[[:digit:]]{4})?$。如果您的源字符串以 5位邮政编码或 5 + 4 位邮政编码的格式结束,则您将能够显示该模式的起始位置。

SELECTREGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234-1234',
' [[:digit:]]{5}(-[[:digit:]]{4})?$')
AS starts_at
FROM dual
STARTS_AT
----------
44

在这个示例中,括弧里的子表达式(-[[:digit:]]{4})将按?重复操作符的指示重复零次或一次。此外,企图用传统的 SQL 函数来实现相同的结果甚至对 SQL专家也是一个挑战。为了更好地说明这个正规表达式示例的不同组成部分,表 7包含了一个对单个文字和元字符的描述。

REGEXP_SUBSTR函数

·?3àà??óúSUBSTR函数的REGEXP_SUBSTR函数用来提取一个字符串的一部分。表 8显示了这个新函数的语法。在下面的示例中,匹配模式[^,]*的字符串将被返回。该正规表达式搜索其后紧跟着空格的一个逗号;然后按[^,]*的指示搜索零个或更多个不是逗号的字符,最后查找另一个逗号。这种模式看起来有点像一个用逗号分隔的值字符串。

SELECTREGEXP_SUBSTR('first field, second field , third field',
', [^,]*,')
FROM dual
REGEXP_SUBSTR('FIR
------------------
, second field ,

REGEXP_REPLACE函数

让我们首先看一下传统的REPLACE SQL函数,它把一个字符串用另一个字符串来替换。假设您的数据在正文中有不必要的空格,您希望用单个空格来替换它们。利用REPLACE函数,您需要准确地列出您要替换多少个空格。然而,多余空格的数目在正文的各处可能不是相同的。下面的示例在JoeSmith之间有三个空格。REPLACE函数的参数指定要用一个空格来替换两个空格。在这种情况下,结果在原来的字符串的JoeSmith之间留下了一个额外的空格。

SELECTREPLACE('Joe Smith',' ', ' ')
AS replace
FROM dual
REPLACE
---------
Joe Smith

REGEXP_REPLACE函数把替换功能向前推进了一步,其语法在表 9中列出。以下查询用单个空格替换了任意两个或更多的空格。( )子表达式包含了单个空格,它可以按{2,}的指示重复两次或更多次。

SELECT REGEXP_REPLACE('Joe Smith',
'( ){2,}', ' ')
AS RX_REPLACE
FROM dual
RX_REPLACE
----------
Joe Smith

后向引用 

正则表达式的一个有用的特性是能够存储子表达式供以后重用;这也被称为后向引用(在表 10 中对其进行了概述)。它允许复杂的替换功能,如在新的位置上交换模式或显示重复出现的单词或字母。子表达式的匹配部分保存在临时缓冲区中。缓冲区从左至右进行编号,并利用 \digit 符号进行访问,其中digit 是 1 到 9 之间的一个数字,它匹配第digit 个子表达式,子表达式用一组圆括号来显示。

接下来的例子显示了通过按编号引用各个子表达式将姓名 Ellen Hildi Smith 转变为 Smith, Ellen Hildi。

SELECT REGEXP_REPLACE(
'Ellen Hildi Smith',
'(.*) (.*) (.*)', '\3, \1 \2')
FROM dual
REGEXP_REPLACE('EL
------------------
Smith, Ellen Hildi

该 SQL 语句显示了用圆括号括住的三个单独的子表达式。每一个单独的子表达式包含一个匹配元字符 (.),并紧跟着 * 元字符,表示任何字符(除换行符之外)都必须匹配零次或更多次。空格将各个子表达式分开,空格也必须匹配。圆括号创建获取值的子表达式,并且可以用 \digit 来引用。第一个子表达式被赋值为 \1 ,第二个 \2,以此类推。这些后向引用被用在这个函数的最后一个参数 (\3, \1 \2) 中,这个函数有效地返回了替换子字符串,并按期望的格式来排列它们(包括逗号和空格)。表 11 详细说明了该正则表达式的各个组成部分。

后向引用对替换、格式化和代替值非常有用,并且您可以用它们来查找相邻出现的值。接下来的例子显示了使用 REGEP_SUBSTR 函数来查找任意被空格隔开的重复出现的字母数字值。显示的结果给出了识别重复出现的单词is 的子字符串。

SELECT REGEXP_SUBSTR(
'The final test is is the implementation',
([[:alnum:]]+)([[:space:]]+)\1') AS substr
FROM dual
SUBSTR
------
is is

匹配参数选项

您可能已经注意到了正则表达式操作符和函数包含一个可选的匹配参数。这个参数控制是否区分大小写、换行符的匹配和保留多行输入。

正则表达式的实际应用

您不仅可以在队列中使用正则表达式,还可以在使用 SQL 操作符或函数的任何地方(比如说在 PL/SQL 语言中)使用正则表达式。您可以编写利用正则表达式功能的触发器,以验证、生成或提取值。

接下来的例子演示了您如何能够在一次列检查约束条件中应用 REGEXP_LIKE 操作符来进行数据验证。它在插入或更新时检验正确的社会保险号码格式。如 123-45-6789 和 123456789 之类格式的社会保险号码对于这种列约束条件是可接受的值。有效的数据必须以三个数字开始,紧跟着一个连字符,再加两个数字和一个连字符,最后又是四个数字。另一种表达式只允许 9 个连续的数字。竖线符号 (|) 将各个选项分开。

ALTER TABLE students

  ADD CONSTRAINT stud_ssn_ck CHECK

  (REGEXP_LIKE(ssn,

  '^([[:digit:]]{3}-[[:digit:]]{2}-[[:digit:]]{4}|[[:digit:]]{9})$'))

由 ^ 和 $ 指示的开头或结尾的字符都是不可接受的。确保您的正则表达式没有分成多行或包含任何不必要的空格,除非您希望格式如此并相应地进行匹配。表 12 说明了该正则表达式示例的各个组成部分。

将正则表达式与现有的功能进行比较

正则表达式有几个优点优于常见的 LIKE 操作符和 INSTR、SUBSTR 及 REPLACE 函数的。这些传统的 SQL 函数不便于进行模式匹配。只有 LIKE 操作符通过使用 % 和 _ 字符匹配,但 LIKE 不支持表达式的重复、复杂的更替、字符范围、字符列表和 POSIX 字符类等等。此外,新的正则表达式函数允许检测重复出现的单词和模式交换。这里的例子为您提供了正则表达式领域的一个概览,以及您如何能够在您的应用程序中使用它们。

实实在在地丰富您的工具包

因为正则表达式有助于解决复杂的问题,所以它们是非常强大的。正则表达式的一些功能难于用传统的 SQL 函数来仿效。当您了解了这种稍显神秘的语言的基础构建程序块时,正则表达式将成为您的工具包的不可缺少的一部分(不仅在 SQL 环境下也在其它的编程语言环境下)。为了使您的各个模式正确,虽然尝试和错误有时是必须的,但正则表达式的简洁和强大是不容置疑的。

Alice Rischert (ar280@yahoo.com) 是哥伦比亚大学计算机技术与应用系的数据库应用程序开发和设计方向的主席。她编写了Oracle SQL交互手册 2(Prentice Hall,2002)和即将推出的Oracle SQL示例 (Prentice Hall,2003)。Rischert 拥有超过 15 年的经验在财富 100 强公司内担任数据库设计师、DBA 和项目主管,并且她自从 Oracle version 5 起就一直使用 Oracle 产品。

表 1:定位元字符 

元字符

说明

^

使表达式定位至一行的开头

$

使表达式定位至一行的末尾

表 2:量词或重复操作符 

量词

说明

*

匹配 0 次或更多次

?

匹配 0 次或 1 次

+

匹配 1 次或更多次

{m}

正好匹配 m

{m,}

至少匹配 m

{m, n}

至少匹配 m 次但不超过 n

表 3:预定义的 POSIX 字符类 

字符类

说明

[:alpha:]

字母字符

[:lower:]

小写字母字符

[:upper:]

大写字母字符

[:digit:]

数字

[:alnum:]

字母数字字符

[:space:]

空白字符(禁止打印),如回车符、换行符、竖直制表符和换页符

[:punct:]

标点字符

[:cntrl:]

控制字符(禁止打印)

[:print:]

可打印字符

表 4:表达式的替换匹配和分组 

元字符

说明

|

替换

分隔替换选项,通常与分组操作符 () 一起使用

( )

分组

将子表达式分组为一个替换单元、量词单元或后向引用单元(参见"后向引用"部分)

[char]

字符列表

表示一个字符列表;一个字符列表中的大多数元字符(除字符类、^ 和 - 元字符之外)被理解为文字

表 5:REGEXP_LIKE 操作符 

语法

说明

REGEXP_LIKE(source_string, pattern
[, match_parameter])

source_string 支持字符数据类型(CHAR、VARCHAR2、CLOB、NCHAR、NVARCHAR2 和 NCLOB,但不包括 LONG)。pattern 参数是正则表达式的另一个名称。match_parameter 允许可选的参数(如处理换行符、保留多行格式化以及提供对区分大小写的控制)。

表 6:REGEXP_INSTR 函数 

语法

说明

REGEXP_INSTR(source_string, pattern
[, start_position
[, occurrence
[, return_option
[, match_parameter]]]])

该函数查找 pattern ,并返回该模式的第一个位置。您可以随意指定您想要开始搜索的 start_position。 occurrence 参数默认为 1,除非您指定您要查找接下来出现的一个模式。return_option 的默认值为 0,它返回该模式的起始位置;值为 1 则返回符合匹配条件的下一个字符的起始位置。

表 7: 5 位数字加 4 位邮政编码表达式的说明 

语法

说明

 

必须匹配的空白

[:digit:]

POSIX 数字类

]

字符列表的结尾

{5}

字符列表正好重复出现 5 次

(

子表达式的开头

-

一个文字连字符,因为它不是一个字符列表内的范围元字符

[

字符列表的开头

[:digit:]

POSIX [:digit:]类

[

字符列表的开头

]

字符列表的结尾

{4}

字符列表正好重复出现 4 次

)

结束圆括号,结束子表达式

?

? 量词匹配分组的子表达式 0 或 1 次,从而使得 4 位代码可选

$

定位元字符,指示行尾

表 8:REGEXP_SUBSTR 函数 

语法

说明

REGEXP_SUBSTR(source_string, pattern
[, position [, occurrence
[, match_parameter]]])

REGEXP_SUBSTR 函数返回匹配模式的子字符串。

表 9:REGEXP_REPLACE 函数 

语法

说明

REGEXP_REPLACE(source_string, pattern
[, replace_string [, position
[,occurrence, [match_parameter]]]])

该函数用一个指定的 replace_string 来替换匹配的模式,从而允许复杂的"搜索并替换"操作。

表 10:后向引用元字符 

元字符

说明

\digit

反斜线

紧跟着一个 1 到 9 之间的数字,反斜线匹配之前的用括号括起来的第 digit 个子表达式。
(注意:反斜线在正则表达式中有另一种意义,取决于上下文,它还可能表示 Escape 字符。

表 11:模式交换正则表达式的说明 

正则表达式项目

说明

(

第一个子表达式的开头

.

匹配除换行符之外的任意单字符

*

重复操作符,匹配之前的 . 元字符 0 到 n

)

第一个子表达式的结尾;匹配结果在 \1
中获取(在这个例子中,结果为 Ellen。)

 

必须存在的空白

(

第二个子表达式的开头

.

匹配除换行符之外的任意单个字符

*

重复操作符,匹配之前的 . 元字符 0 到 n

)

第二个子表达式的结尾;匹配结果在 \2
中获取(在这个例子中,结果为 Hildi。)

 

空白

(

第三个子表达式的开头 tr>

.

匹配除换行符之外的任意单字符

*

重复操作符,匹配之前的 . 元字符 0 到 n

)

第三个子表达式的结尾;匹配结果在 \3
中获取(在这个例子中,结果为 Smith。)

表 12:社会保险号码正则表达式的说明 

正则表达式项目

说明

^

行首字符(正则表达式在匹配之前不能有任何前导字符。)

(

开始子表达式并列出用 | 元字符分开的可替换选项

[

字符列表的开头

[:digit:]

POSIX 数字类

]

字符列表的结尾

{3}

字符列表正好重复出现 3 次

-

连字符

[

字符列表的开头

[:digit:]

POSIX 数字类

]

字符列表的结尾

{2}

字符列表正好重复出现 2 次

-

另一个连字符

[

字符列表的开头

[:digit:]

POSIX 数字类

]

字符列表的结尾

{4}

字符列表正好重复出现 4 次

|

替换元字符;结束第一个选项并开始下一个替换表达式

[

字符列表的开头

[:digit:]

POSIX 数字类

]

字符列表的结尾

{9}

字符列表正好重复出现 9 次

)

结束圆括号,结束用于替换的子表达式组

$

定位元字符,指示行尾;没有额外的字符能够符合模式

 

 

 

 ==============================================================

Oracle正则表达式


就是由普通字符(例如字符az)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

本文详细地列出了能在正则表达式中使用,以匹配文本的各种字符。当你需要解释一个现有的正则表达式时,可以作为一个快捷的参考。更多详细内容,请参考:FrancoisLiger,Craig McQueen,Pal Wilton[刘乐亭译] C#字符串和正则表达式参考手册北京:清华大学出版社2003.2

.     匹配字符

字符类

匹配的字符

举 例

\d

从0-9的任一数字

\d\d匹配72,但不匹配aa或7a

\D

任一非数字字符

\D\D\D匹配abc,但不匹配123

\w

任一单词字符,包括A-Z,a-z,0-9和下划线

\w\w\w\w匹配Ab-2,但不匹配∑£$%*或Ab_@

\W

任一非单词字符

\W匹配@,但不匹配a

\s

任一空白字符,包括制表符,换行符,回车符,换页符和垂直制表符

匹配在HTML,XML和其他标准定义中的所有传统空白字符

\S

任一非空白字符

空白字符以外的任意字符,如A%&g3;等

.

任一字符

匹配除换行符以外的任意字符除非设置了MultiLine先项

[…]

括号中的任一字符

[abc]将匹配一个单字符,a,b或c.

[a-z]将匹配从a到z的任一字符

[^…]

不在括号中的任一字符

[^abc]将匹配一个a、b、c之外的单字符,可以a,b或A、B、C

[a-z]将匹配不属于a-z的任一字符,但可以匹配所有的大写字母

 

.     重复字符

重复字符

含 义

举 例

{n}

匹配前面的字符n次

x{2}匹配xx,但不匹配x或xxx

{n,}

匹配前面的字符至少n次

x{2}匹配2个或更多的x,如xxx,xxx..

{n,m}

匹配前面的字符至少n次,至多m次。如果n为0,此参数为可选参数

x{2,4}匹配xx,xxx,xxxx,但不匹配xxxxx

?

匹配前面的字符0次或1次,实质上也是可选的

x?匹配x或零个x

+

匹配前面的字符0次或多次

x+匹配x或xx或大于0的任意多个x

*

匹配前面的字符0次或更多次

x*匹配0,1或更多个x

 

.     定位字符

定位字符

描 述

^

随后的模式必须位于字符串的开始位置,如果是一个多行字符串,则必须位于行首。对于多行文本(包含回车符的一个字符串)来说,需要设置多行标志

$

前面的模式必须位于字符串的未端,如果是一个多行字符串,必须位于行尾

\A

前面的模式必须位于字符串的开始位置,忽略多行标志

\z

前面的模式必须位于字符串的未端,忽略多行标志

\Z

前面的模式必须位于字符串的未端,或者位于一个换行符前

\b

匹配一个单词边界,也就是一个单词字符和非单词字符中间的点。要记住一个单词字符是[a-zA-Z0-9]中的一个字符。位于一个单词的词首

\B

匹配一个非单词字符边界位置,不是一个单词的词首

注:定位字符可以应用于字符或组合,放在字符串的左端或右端

 

 

.     分组字符

分组字符

定 义

举 例

()

此字符可以组合括号内模式所匹配的字符,它是一个捕获组,也就是说模式匹配的字符作为最终设置了ExplicitCapture选项――默认状态下字符不是匹配的一部分

输入字符串为:ABC1DEF2XY

匹配3个从A到Z的字符和1个数字的正则表达式:([A-Z]{3}\d)

将产生两次匹配:Match 1=ABC1;Match 2=DEF2

每次匹配对应一个组:Match1的第一个组=ABC;Match2的第1个组=DEF

有了反向引用,就可以通过它在正则表达式中的编号以及C#和类Group,GroupCollection来访问组。如果设置了ExplicitCapture选项,就不能使用组所捕获的内容

(?:)

此字符可以组合括号内模式所匹配的字符,它是一个非捕获组,这意味着模式所的字符将不作为一个组来捕获,但它构成了最终匹配结果的一部分。它基本上与上面的组类型相同,但设定了选项ExplicitCapture

输入字符串为:1A BB SA1 C

匹配一个数字或一个A到Z的字母,接着是任意单词字符的正则表达式为:(?:\d|[A-Z]\w)

它将产生3次匹配:每1次匹配=1A;每2次匹配=BB;每3次匹配=SA

但是没有组被捕获

(?<name>)

此选项组合括号内模式所匹配的字符,并用尖括号中指定的值为组命名。在正则表达式中,可以使用名称进行反向引用,而不必使用编号。即使不设置ExplicitCapture选项,它也是一个捕获组。这意味着反向引用可以利用组内匹配的字符,或者通过Group类访问

输入字符串为:Characters in Sienfeld included Jerry Seinfeld,Elaine Benes,Cosno Kramer and George Costanza能够匹配它们的姓名,并在一个组llastName中捕获姓的正则表达式为:\b[A-Z][a-z]+(?<lastName>[A-Z][a-z]+)\b

它产生了4次匹配:First Match=Jerry Seinfeld; Second Match=Elaine Benes; Third Match=Cosmo Kramer; Fourth Match=George Costanza

每一次匹配都对应了一个lastName组:

第1次匹配:lastName group=Seinfeld

第2次匹配:lastName group=Benes

第3次匹配:lastName group=Kramer

第4次匹配:lastName group=Costanza

不管是否设置了选项ExplictCapture,组都将被捕获

(?=)

正声明。声明的右侧必须是括号中指定的模式。此模式不构成最终匹配的一部分

正则表达式\S+(?=.NET)要匹配的输入字符串为:The languages were Java,C#.NET,VB.NET,C,Jscript.NET,Pascal

将产生如下匹配:〕

C#

VB

JScript.

(?!)

负声明。它规定模式不能紧临着声明的右侧。此模式不构成最终匹配的一部分

\d{3}(?![A-Z])要匹配的输入字符串为:123A 456 789111C

将产生如下匹配:

456

789

(?<=)

反向正声明。声明的左侧必须为括号内的指定模式。此模式不构成最终匹配的一部分

正则表达式(?<=New)([A-Z][a-z]+)要匹配的输入字符串为:The following states,New Mexico,West Virginia,Washington, New England

它将产生如下匹配:

Mexico

England

(?<!)

反向正声明。声明的左侧必须不能是括号内的指定模式。此模式不构成最终匹配的一部分

正则表达式(?<!1)\d{2}([A-Z])要匹配的输入字符串如下:123A456F789C111A

它将实现如下匹配:

56F

89C

(?>)

非回溯组。防止Regex引擎回溯并且防止实现一次匹配

假设要匹配所有以“ing”结尾的单词。输入字符串如下:He was very trusing

正则表达式为:.*ing

它将实现一次匹配――单词trusting。“.”匹配任意字符,当然也匹配“ing”。所以,Regex引擎回溯一位并在第2个“t”停止,然后匹配指定的模式“ing”。但是,如果禁用回溯操作:(?>.*)ing

它将实现0次匹配。“.”能匹配所有的字符,包括“ing”――不能匹配,从而匹配失败

 

.     决策字符

字 符 

描 述

举 例

(?(regex)yes_regex|no_regex)

如果表达式regex匹配,那么将试图匹配表达式yes。否则匹配表达式no。正则表达式no是可先参数。注意,作出决策的模式宽度为0.这意味着表达式yes或no将从与regex表达式相同的位置开始匹配

正则表达式(?(\d)dA|A-Z)B)要匹配的输入字符串为:1A CB3A5C 3B

它实现的匹配是:

1A

CB

3A

(?(group name or number)yes_regex|no_regex)

如果组中的正则表达式实现了匹配,那么试图匹配yes正则表达式。否则,试图匹配正则表达式no。no是可先的参数

正则表达式

 (\d7)?-(?(1)\d\d[A-Z]|[A-Z][A-Z]要匹配的输入字符串为:

77-77A 69-AA 57-B

它实现的匹配为:

77-77A

-AA

注:上面表中列出的字符强迫处理器执行一次if-else决策

 

.     替换字符

字 符

描 述

$group

用group指定的组号替换

${name}

替换被一个(?<name>)组匹配的最后子串

$$

替换一个字符$

$&

替换整个的匹配

$^

替换输入字符串匹配之前的所有文本

$’

替换输入字符串匹配之后的所有文本

$+

替换最后捕获的组

$_

替换整个的输入字符串

注:以上为常用替换字符,不全

 

.     转义序列

字 符

描 述

\\

匹配字符“\”

\.

匹配字符“.”

\*

匹配字符“*”

\+

匹配字符“+”

\?

匹配字符“?”

\|

匹配字符“|”

\(

匹配字符“(”

\)

匹配字符“)”

\{

匹配字符“{”

\}

匹配字符“}”

\^

匹配字符“^”

\$

匹配字符“$”

\n

匹配换行符

\r

匹配回车符

\t

匹配制表符

\v

匹配垂直制表符

\f

匹配换面符

\nnn

匹配一个8进数字,nnn指定的ASCII字符。如\103匹配大写的C

\xnn

匹配一个16进数字,nn指定的ASCII字符。如\x43匹配大写的C

\unnnn

匹配由4位16进数字(由nnnn表示)指定的Unicode字符

\cV

匹配一个控制字符,如\cV匹配Ctrl-V

 

.     选项标志

选项标志

名 称

I

IgnoreCase

M

Multiline

N

ExplicitCapture

S

SingleLine

X

IgnorePatternWhitespace

注:选项本身的信作含义如下表所示:

标 志

名 称

IgnoreCase

使模式匹配不区分大小写。默认的选项是匹配区分大小写

RightToLeft

从右到左搜索输入字符串。默认是从左到右以符合英语等的阅读习惯,但不符合阿拉伯语或希伯来语的阅读习惯

None

不设置标志。这是默认选项

Multiline

指定^和$可以匹配行首和行尾,以及字符串的开始和结尾。这意味着可以匹配每个用换行符分隔的行。但是,字符“.”仍然不匹配换行符

SingleLine

规定特殊字符“.”匹配任意的字符,包括换行符。默认情况下,特殊字符“.”不匹配换行符。通常与MultiLine选项一起使用

ECMAScript.

ECMA(European Coputer Manufacturer’s Association,欧洲计算机生产商协会)已经定义了正则表达式应该如何实现,而且已经在ECMAScript规范中实现,这是一个基于标准的JavaScript。这个选项只能与IgnoreCase和MultiLine标志一起使用。与其它任何标志一起使用,ECMAScript都将产生异常

IgnorePatternWhitespace

此选项从使用的正则表达式模式中删除所有非转义空白字符。它使表达式能跨越多行文本,但必须确保对模式中所有的空白进行转义。如果设置了此选项,还可以使用“#”字符来注释下则表达式

Complied

它把正则表达式编译为更接近机器代码的代码。这样速度快,但不允许对它进行任何修改


==============================================================

oracle的正则表达式(regular expression)简单介绍


目前,正则表达式已经在很多软件中得到广泛的应用,包括*nix(Linux, Unix等),HP等操作系统,PHP,C#,Java等开发环境。

Oracle 10g正则表达式提高了SQL灵活性。有效的解决了数据有效性,重复词的辨认, 无关的空白检测,或者分解多个正则组成的字符串等问题。
Oracle 10g支持正则表达式的四个新函数分别是:REGEXP_LIKE、REGEXP_INSTR、REGEXP_SUBSTR、和REGEXP_REPLACE。
它们使用POSIX 正则表达式代替了老的百分号(%)和通配符(_)字符。
特殊字符:
'^' 匹配输入字符串的开始位置,在方括号表达式中使用,此时它表示不接受该字符集合。
'$' 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或'\r'。
'.' 匹配除换行符 \n之外的任何单字符。
'?' 匹配前面的子表达式零次或一次。
'*' 匹配前面的子表达式零次或多次。
'+' 匹配前面的子表达式一次或多次。
'( )' 标记一个子表达式的开始和结束位置。
'[]' 标记一个中括号表达式。
'{m,n}' 一个精确地出现次数范围,m=<出现次数<=n,'{m}'表示出现m次,'{m,}'表示至少出现m次。
'|' 指明两项之间的一个选择。例子'^([a-z]+|[0-9]+)$'表示所有小写字母或数字组合成的字符串。
\num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。
正则表达式的一个很有用的特点是可以保存子表达式以后使用,被称为Backreferencing. 允许复杂的替换能力
如调整一个模式到新的位置或者指示被代替的字符或者单词的位置. 被匹配的子表达式存储在临时缓冲区

中,缓冲区从左到右编号, 通过\数字符号访问。 下面的例子列出了把名字 aa bb cc 变成cc, bb, aa.
Select REGEXP_REPLACE('aa bb cc','(.*) (.*) (.*)', '\3, \2, \1') FROM dual;
REGEXP_REPLACE('ELLENHILDISMIT
cc, bb, aa
'\' 转义符。
字符簇:
[[:alpha:]] 任何字母。
[[:digit:]] 任何数字。
[[:alnum:]] 任何字母和数字。
[[:space:]] 任何白字符。
[[:upper:]] 任何大写字母。
[[:lower:]] 任何小写字母。
[[unct:]] 任何标点符号。
[[:xdigit:]] 任何16进制的数字,相当于[0-9a-fA-F]。
各种操作符的运算优先级
\ 转义符
(), (?, (?=), [] 圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, \anymetacharacter 位置和顺序
| “或”操作
--测试数据
create table test(mc varchar2(60));
insert into test values('112233445566778899');
insert into test values('22113344 5566778899');
insert into test values('33112244 5566778899');
insert into test values('44112233 5566 778899');
insert into test values('5511 2233 4466778899');
insert into test values('661122334455778899');
insert into test values('771122334455668899');
insert into test values('881122334455667799');
insert into test values('991122334455667788');
insert into test values('aabbccddee');
insert into test values('bbaaaccddee');
insert into test values('ccabbddee');
insert into test values('ddaabbccee');
insert into test values('eeaabbccdd');
insert into test values('ab123');
insert into test values('123xy');
insert into test values('007ab');
insert into test values('abcxy');
insert into test values('The final test is is is how to find duplicate words.');
commit;
一、REGEXP_LIKE
select * from test where regexp_like(mc,'^a{1,3}');
select * from test where regexp_like(mc,'a{1,3}');
select * from test where regexp_like(mc,'^a.*e$');
select * from test where regexp_like(mc,'^[[:lower:]]|[[:digit:]]');
select * from test where regexp_like(mc,'^[[:lower:]]');
Select mc FROM test Where REGEXP_LIKE(mc,'[^[:digit:]]');
Select mc FROM test Where REGEXP_LIKE(mc,'^[^[:digit:]]');
二、REGEXP_INSTR
Select REGEXP_INSTR(mc,'[[:digit:]]$') from test;
Select REGEXP_INSTR(mc,'[[:digit:]]+$') from test;
Select REGEXP_INSTR('The price is $400.','\$[[:digit:]]+') FROM DUAL;
Select REGEXP_INSTR('onetwothree','[^[[:lower:]]]') FROM DUAL;
Select REGEXP_INSTR(',,,,,','[^,]*') FROM DUAL;
Select REGEXP_INSTR(',,,,,','[^,]') FROM DUAL;
三、REGEXP_SUBSTR
SELECT REGEXP_SUBSTR(mc,'[a-z]+') FROM test;
SELECT REGEXP_SUBSTR(mc,'[0-9]+') FROM test;
SELECT REGEXP_SUBSTR('aababcde','^a.*b') FROM DUAL;
四、REGEXP_REPLACE
Select REGEXP_REPLACE('Joe Smith','( ){2,}', ',') AS RX_REPLACE FROM dual;
Select REGEXP_REPLACE('aa bb cc','(.*) (.*) (.*)', '\3, \2, \1') FROM dual

四个函数是:regexp_like.regexp_instr.regexp_substr.与 regexp_replace.它们在用法上与oracle sql 函数like.instr.substr 与replace 用法,但是它们使用posix 正则表达式代替了老的百分号(%)与通配符(_)字符. 【推荐阅读:My SQL数据库引擎快速指导】

regexp_like 与like 操作符相似.如果第一个参数匹配正则表达式它就解析为true.例如where regexp_like(ename,^j[ao],i) 将在ename 以ja 或jo 开始的情况下返回一行数据.i 参数指定正则表达式是大小写敏感的.另外还可以在check 约束与函数索引中指定regexp_like.例如: 【扩展信息:MYSQL基本数据库术语】
^ 表示字符串的开始 $ 表示字符串的结束 . 表示任何字符 字符的范围,比如说[a-z],表示任何ascii 小写字母,与字符类"[[:lower:]]"" 等价 ? 允许一个后继字符匹配零次或一次 + 允许一个后继字符匹配一次或多次 * 表示零次或多次

可以使用"{m,n}" 指定一个精确地出现范围,其意思是“出现从m 次到n 次”;"{m}" 表示“正好m次”;而"{m,}" 表示“至少m次”.还可以使用圆括号组合字符的集合,使用"|"(竖线)表示可替换.例如,字符串^([a-z]+|[0-9]+)$将匹配所有由小写字母或数字组合成的字符串.
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值