正则表达式的匹配字符

原创 2013年12月03日 22:10:19

正则表达式是由普通字符(例如字符a ~ z)及特殊字符(称为元字符)组成的匹配模式字符串。



普通字符
非打印字符
特殊字符
次数限定符
贪婪与非贪婪限定符
定位符
选择与分组
向后引用

 

普通字符

         普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

A

->

A

c

->

abcde

bcd

->

abcde

 

非打印字符

除以上的普通字符外,还有少量的非打印字符,非打印字符使用转义符号 "\" 表示。如下表:

字符

说明

等同

\cx

匹配由x指明的控件字符。例如,\cM匹配一个ControlM或回车符。x的值必须为A~Za~z之一,否则,将c视为一个原义的'c'字符。

 

\f

匹配一个换页符

\x0c\cL

\n

匹配一个换行符

\x0a\cJ

\r

匹配一个回车符

\x0d\cM

\t       

匹配一个制表符

\x09\cI

\v

匹配一个垂直制表符

\x0b\cK

\s

匹配任何空白字符,包括空格、制表符、换页符等

[\f\n\r\t\v]

\S

匹配任何非空白字符

[^\f\n\r\v]

 

特殊字符

一些有特殊含义的字符,通常都是正则表达式语法中规定的匹配字符。如下表:

类型

字符

说明

首尾

^

匹配输入字符串的 开始位置。除非在广括号表达式中使用,此时它表示不接受该字符集合

 

$

匹配输入字符串的 结尾位置。如果设置了RegExp对象的Multiline属性,则$也匹配'\n''\r'

次数

*

匹配前面的子表达式 零次 多次

 

?

匹配前面的子表达式 零次 一次,或指明一个非贪婪限定符

 

+

匹配前面的子表达式 一次 多次

.

匹配除换行符 \n 之外的任何单字符

括号

()

标记一个子表达式的开始和结束位置。子表达式可以获取供后续使用

 

[]

标记一个中括号表达式的开始

 

{}

标记限定符表达式的开始

字符

\d

任意一个数字,0~9中的任意一个

 

\w

任意一个字母、数字或下画线,也就是 A ~ Za ~ z0 ~ 9_中任意一个

 

\D

匹配所有的非数字字符

 

\W

匹配所有的字母、数字、下画线以外的字符

\

将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如 'n' 匹配字符 'n''\n'匹配换行符。

-

|

指明两项之前的一个选择

示例如:

\$d

->

abc$de

 

Tom|Jack

->

I'm Tom, he is Jack

 

(go\s*)+

->

Let's go go go!

 

(\d+\.?\d*)

->

$10.9, 20.5

单独获取括号范围匹配到的内容是:20.5

\d\d

->

abc123

 

a.\d

->

aaa100

 

[bcd][bcd]

->

abc123

 

[^abc]

->

abc123

 

 

次数限定符

次数限定符即限定匹配某一字符表达式的次数,用来指定正则表达式的一个给定组合必须要出现多少次才能满足匹配。

字符

说明

举例

*

匹配前面的子表达式零次或多次

zo* 能匹配 z zoo

+

匹配前面的子表达式一次或多次

zo+ 能匹配 zo zoo

?

匹配前面的子表达式零次或一次

do(es)? 能匹配 do does

{n}

n是一个非负整数。匹配确定的n

o{2} 只能匹配 oo

{n,}

n是一个非负整数。至少匹配n

o{2,} 能匹配 oo fooood中的多个o

{n,m}

mn均为非负整数,其中n<=m

最少匹配n次且最多匹配m

o{1,3} 能匹配 1个、2个或3 o

 

贪婪与非贪婪限定符

贪婪限定符会尽可能多的匹配文字,只有在它们的后面加个一个"?"就可以实现非贪婪或最小匹配

    • 贪婪匹配限定符

    A*

    匹配 0 次或 n

    A+

    匹配 1 次或 n

    A?

    匹配 0 1

    A{n}

    匹配 n

    A{n,}

    匹配 n 多次

     

    • 非贪婪匹配限定符

    A*?

    匹配 0 次或 n

    A+?

    匹配 1 次或 n

    A??

    匹配 0 1

例如,你可能要搜索一个HTML文档来查询一处包含在H1标记中的章节标题。在文档中该文字可能具有如下形式:

<H1> Chapter 1 - Introduction to Regular Expressions </H1>

下面的表达式匹配从开始的小于号(<)到H1标记结束处的大于号之间的所有内容:

<.*>

如果所要匹配的就是开始的H1标记,则下述非贪婪地表达式就只能匹配到<H1>

<.*?>

 

定位符

         定位符用来描述匹配到的字符串或单词的边界。定义符可以将一个正则表达式固定在一行的开始和结束,也可以创建只在单词内或只在单词的开始或结尾处出现的正则表达式。

字符

说明

 ^

匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,"^"也匹配'\n''\r'之后的位置

$

匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,"$"也匹配'\n''\r'之后的位置

\b

匹配一个单词边界,也就是指单词和空格间的位置

\B

匹配非单词边界

示例如下:

^aaa

->

xxx aaa xxx

aaa xxx xxx

aaa$

->

xxx aaa xxx

xxx xxx aaa

.\b.

->

@@@abc

 

\bend\b

->

weekend,endfor,end

 

 

替换与分组

         替换使用 | 字符来允许在两个或多个替换选项之间进行选择。例如,可以扩展章节标题正则表达式,以返回比章标题范围更广的匹配项。但是,这并不象您可能认为的那样简单。替换匹配 | 字符任一侧最大的表达式。

         您可能认为,下面的表达式匹配出现在行首和行尾、后面跟一个或两个数字的 Chapter 或 Section:

^Chapter|Section [1-9][0-9]{0,1}$

         很遗憾,上面的正则表达式要么匹配行首的单词 Chapter,要么匹配行尾的单词 Section 及跟在其后的任何数字。如果输入字符串是 Chapter 22,那么上面的表达式只匹配单词 Chapter。如果输入字符串是 Section 22,那么该表达式匹配 Section 22。通过在上面的正则表达式的适当位置添加括号,就可以使该正则表达式匹配 Chapter 1 或 Section 3:

^(Chapter|Section) [1-9][0-9]{0,1}$

         使用圆括号同时会有一个副作用,就是相关的匹配会被缓存。为了消除缓存,此时可以将"?:"放在第一个选项前,用来消除这种副作用。其中"?:"是非捕获元之一,还有两非捕获元是 "?=" "?!" 这两个还有更多的含义:

  • 前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串;
  • 后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

         可以在正则表达式模式圆括号内部的前面使用"?:"来防止存储该匹配供后续使用。对上面所示正则表达式的下述修改提供了免除子匹配存储的相同功能:

^(?:Chapter|Section) [1-9][0-9]{0,1}$

相关文章推荐

正则表达式的特殊字符

正则表达式的特殊字符

正则匹配任意字符(常用正则表达式的书写)

http://www.unibetter.com/deerchao/zhengzhe-biaodashi-jiaocheng-se.htm   正则教程 (注:元字符包括\ | ( ) [ ...

正则表达式学习(四)匹配单个字符

PS:在所有例子中正则表达式匹配结果包含在源文本中的【和】之间,有的例子会使用java来实现,如果是java本身正则表达式的用法,会在相应的地方说明。所有java例子都在JDK1.6.0_13下测试通...
  • mhmyqn
  • mhmyqn
  • 2012年07月28日 19:39
  • 5583

正则表达式的各种字符匹配及含义

正则表达式的直接量字符字符匹配字母数字字符自身\oNUL字符(\u0000)\t制表符(\u0009)\n换行符(\u000A)\v垂直制表符(\u000B)\f换页符(\u000C)\r回车(\u0...

正则表达式的匹配规则

  • 2009年04月25日 09:52
  • 19KB
  • 下载

正则表达式入门_单字符匹配

正则表达式的匹配方式1.模式、元字符等基本概念 字符串 regex 模式 e 结果 r[e]gex正则表达式就是模式,很多文档中会使用模式来代表该含义。此处只返回匹配模式的第一条结果。多条匹配时之...

使用ICU库中的正则表达式匹配关键字之间含有特殊字符的关键字示例

#include "unicode/regex.h" #include "unicode/ucnv.h" #ifdef _DEBUG #ifdef _WIN64 #pragma comment(...

正则表达式(匹配输入框和右键黏贴板里的字符)

最近常用到正则表达式,特意在网上找了一些资料自己修改了一下收藏在这里,作备忘之用。(没有全部测试,谨慎使用). 匹配除换行符以外的任意字符 /w 匹配字母或数字或下划线或汉字 /s 匹配任意的空白符 ...

java正则表达式,大写字母、小写字母、特殊字符、数字 两种两种以上组合匹配

package test; import java.util.regex.Matcher; import java.util.regex.Pattern; public class zhengze...
  • Vindra
  • Vindra
  • 2014年01月23日 23:55
  • 7025

正则表达式(二)-- 匹配一组字符

一、匹配多个字符中的某一个 正则表达式是区分大小写的,比如使用正则表达式cat可以匹配文本cat而不能匹配文本CAT,如果我们要匹配出含有文本cat的所有结果,而不关心它们大小写的问题,这是就要需要...
  • BestFSQ
  • BestFSQ
  • 2017年02月21日 22:33
  • 342
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:正则表达式的匹配字符
举报原因:
原因补充:

(最多只允许输入30个字)